A Groq olyan chipet tervez, amely átadja a vezérlést a szoftvernek

A Groq szétszedte a hagyományos CPU-t, és megtervezte azt a chipet, amelyben a szoftver átveszi a chip irányítását.

A Groq Tensor Streaming Processor Architecture a rendszerfunkciók szoftvervezérlésének növekvő tendenciáját követi, amely az autonóm autókban, hálózatokban és egyéb hardverekben történt.

Az architektúra átadja a chip hardveres vezérlését a fordítónak. A chip stratégiailag integrált szoftvervezérlő egységekkel rendelkezik az adatmozgás és -feldolgozás optimalizálása érdekében.

Az egységek úgy vannak megszervezve, hogy összhangban legyenek a gépi tanulási modellekben található tipikus adatfolyammal.

„A determinizmus lehetővé teszi ezt a szoftver által definiált hardveres megközelítést. Nem foglalkozunk a részletek absztrahálásával. Számunkra ez az alatta lévő hardver vezérléséről szól” – mondja Dennis Abts, a Groq főépítésze.

Abts megosztotta a Groq Tensor Streaming Processor Architecture tervét a heti Hot Chips konferencián. A hardver és szoftver közös tervezése nem új keletű, de a koncepció újjáéledt a konferencián, Pat Gelsinger, az Intel vezérigazgatója pedig beszédében a chipek jövőjének középpontjában álló koncepcióra mutatott rá.

Forrás: Groq

A Groq egyike azoknak a vállalatoknak, amelyek kifejezetten mesterséges intelligencia számára terveznek chipeket. Az AI chipek olyan funkciókkal rendelkeznek, amelyek a felfedezett minták, valószínűségek és asszociációk alapján határozzák meg az eredményeket, ami egyben az architektúra szoftveres hardverellenőrzésének alapja is.

“Amit tettünk, megpróbáltuk megakadályozni a rendszerszinten megjelenő pazarlás, csalás és visszaélés egy részét” – mondta Abts.

A rendszerszintű összetettség gyakran több tíz-ezer processzorral, például CPU-val, GPU-val és smartNIC-vel nő heterogén számítási környezetekben, változó teljesítmény-, teljesítmény- és hibaprofilokkal.

„Ez sok teljesítménybeli eltérést ad például a válaszidőben, a késleltetésben és a változásban. És ez a késleltetési ingadozás végső soron lelassítja az internetes méretű alkalmazásokat” – mondta Abts.

Groq újra megvizsgálta a hardver-szoftver interfészeket egy chipen a determinisztikus feldolgozás érdekében. A vállalatnak tervezési döntéseket kellett hoznia, és a semmiből ki kellett semmisítenie a hagyományos chipterveket.

„Ez lehetővé teszi… egy ISA-t, amely lehetővé teszi a szoftververemünket. Kifejezetten átadjuk a vezérlést a szoftvernek, különösen a fordítónak, hogy az elvi oldalról tudjon érvelni a helyességről és megtervezni a hardverre vonatkozó utasításokat.

A lap tetején egy statikus dinamikus interfész található, amely a fordító számára bármikor teljes képet ad egy rendszerről. Ez felváltja a hagyományos CPU-kon található futásidejű interfészeket.

A statikus dinamikus interfész lehetővé teszi a hardver teljes vezérlését a fordító által, anélkül, hogy a hardver részleteit elvonatkoztatná. A fordítónak “csodálatos képe van arról, mit csinál a hardver egy adott ciklusban” – mondta Abts.

A hardveres vezérlések szoftverre való átvitelével a hardver felszabadul más funkciók végrehajtására. Az architektúra eltér a hagyományos rendszerektől, amelyek a renden kívüli végrehajtást, a spekulatív végrehajtást és más technikákat foglalnak magukban a párhuzamosság és a memória egyidejű megteremtése érdekében, mondta Abts.

A rendszer 220 MB “jegyzettömb” memóriával és dedikált “tenzorokkal” rendelkezik, így a fordítók vezérelhetik a számításokat, hova kerülnek a chipben, és hogyan mozognak az egyes ciklusokban. A chip kialakítása lehetővé teszi a memória párhuzamosságát az egész rendszerben.

A Groq a hagyományos CPU-ban általában megtalálható funkcionális elemeket is lebontotta, mint például az egész és a vektoros egységeket, és külön csoportokba helyezte őket. Ez olyan, mintha a memóriát vagy a tárhelyet egyetlen dobozba egyesítené, miközben a közelség teljesítményelőnyöket kínál. Ez különösen előnyös az AI alkalmazásoknál.

A chip kialakítása eltér a hagyományos CPU-któl, és “lehetővé teszi számunkra, hogy ugyanúgy hajtsunk végre, ahogy a hagyományos CPU a nagyobb utasításokat mikroműveletekre bontja. Hasonlóképpen a mély tanulási műveleteket kisebb mikroműveletekre bontjuk.” és azokat együttesként adjuk elő, amelyek együtt nagyobb célt érnek el” – mondta Abts.

A chip kialakítása mátrix szorzóegységekkel rendelkezik, ami az Abts szerint a “munkaló” egység. 409 600 “súly” tárolására alkalmas tárolóegységeket tartalmaz, biztosítva az AI-alkalmazások gyorsabbá tételéhez szükséges párhuzamosságot.

Forrás: Groq

A chip építőkövei közé tartozik még az SRAM memória, a programozható vektoros egységek, a 480 GB/s-os hálózati egységek és az adatkapcsolók. Ezek mind 144 on-chip utasításvezérlő egységhez csatlakoznak, amelyek vezérlik a feladatok átvitelét a kapcsolódó funkcionális egységekhez.

„Ez lehetővé teszi számunkra, hogy nagyon alacsonyan tartsuk a hardver szállítási költségét. A terület kevesebb mint 3 százalékát használják dekódolásra és utasítások küldésére” – mondta Abts.

A Groq szoftveresen definiált megközelítést is alkalmazott a hálózati torlódások csökkentése érdekében.

„A fordító szó szerint meg tudja tervezni a hálózati kapcsolatokat, ugyanúgy, mint az ALU-t (aritmetikai logikai egység) vagy a mátrixot. Ez enyhíti néhány hagyományosabb [hardware-based] megközelítések” – mondta Abt kifejezetten az adaptív útválasztásra utalva.

„Amit próbálunk elérni, az a kiszámítható és megismételhető teljesítmény, amely alacsony késleltetést és nagy áteresztőképességet biztosít az egész rendszerben” – mondta Abts.

Leave a Comment

%d bloggers like this: