AMBICIOZAN PLAN

Elon Musk planira AI superklaster s 50 milijuna GPU-ova

Ako xAI ima dovoljno sredstava za kupnju Nvidia hardvera, cilj od 50 ExaFLOPS-a mogao bi biti postignut i ranije.

Elon Musk planira AI superklaster s 50 milijuna GPU-ova
Depositphotos

OpenAI je najavio planove za izgradnju infrastrukture koja bi podržavala dva milijuna GPU-ova, no Elon Musk je otkrio još kolosalnije planove: ekvivalent 50 milijuna H100 GPU-ova za potrebe umjetne inteligencije u sljedećih pet godina.

Iako broj ekvivalenata H100 izgleda golemo, stvarni broj GPU-ova koji će se implementirati možda i neće biti toliko velik. Za razliku od energije koju će trošiti.

Jedan Nvidia H100 GPU može isporučiti oko 1000 FP16/BF16 TFLOPS-a za treniranje AI modela, što znači da će 50 milijuna takvih akceleratora morati isporučiti 50 FP16/BF16 ExaFLOPS-a do 2030. godine. S obzirom na trenutne trendove poboljšanja performansi, ovo je u potpunosti ostvarivo u sljedećih pet godina.

Ako Nvidia i drugi proizvođači nastave povećavati BF16/FP16 performanse GPU-ova sporijim tempom nego s Hopper i Blackwell generacijama, tada će 50 BF16/FP16 ExaFLOPS-a biti moguće postići uz 1,3 milijuna GPU-ova u 2028. ili 650.000 u 2029., prema našim spekulacijama.

Ako xAI ima dovoljno sredstava za kupnju Nvidia hardvera, cilj od 50 ExaFLOPS-a mogao bi biti postignut i ranije.

xAI Elona Muska već je među najbržim kompanijama koje implementiraju najnovije AI GPU akceleratore za jačanje svojih sposobnosti treniranja. Kompanija već koristi superklaster Colossus 1 koji uključuje 200.000 H100 i H200 akceleratora baziranih na Hopper arhitekturi, kao i 30.000 GB200 jedinica temeljenih na Blackwell arhitekturi. Nadalje, kompanija planira izgraditi Colossus 2 klaster od 550.000 GB200 i GB300 čvorova (svaki ima dva GPU-a, što znači da će klaster imati više od milijun GPU-ova), a prvi čvorovi bi trebali postati aktivni u narednim tjednima, prema Musku.

Nvidia i druge kompanije nedavno su prešle na godišnji ritam izdavanja novih AI akceleratora, a Nvidijin raspored sada nalikuje Intelovom starom Tick-Tock modelu – s razlikom da se ovdje radi o pristupu arhitektura → optimizacija unutar iste proizvodne tehnologije (npr. Blackwell → Blackwell Ultra, Rubin → Rubin Ultra).

Takav pristup osigurava znatna povećanja performansi svake godine, što rezultira dramatičnim dugoročnim dobitcima. Na primjer, Nvidia tvrdi da njihov Blackwell B200 donosi 20.000 puta bolje performanse u inferenciji nego Pascal P100 iz 2016., nudeći oko 20.000 FP4 TFLOPS-a naspram 19 FP16 TFLOPS-a kod P100. Iako nije direktna usporedba, metrika je relevantna za zadatke inferencije. Blackwell je također 42.500 puta energetski učinkovitiji od Pascala po potrošenom joulu po generiranom tokenu.

Blackwell Ultra (B300-serija) nudi 50 posto bolje FP4 performanse (15 FPLOPS) u odnosu na originalni Blackwell (10 FPLOPS) za AI inferenciju, te dvostruko veće performanse u BF16 i TF32 formatima za AI treniranje, uz manji učinak u INT8, FP32 i FP64 formatima. Budući da su BF16 i FP16 uobičajeni za treniranje (iako se testira i FP8), očekuje se daljnji rast performansi u tim formatima kod sljedećih generacija: Rubin, Rubin Ultra, Feynman i Feynman Ultra.

Prema dosadašnjim podacima, Nvidia je povećala FP16/BF16 performanse 3.2 puta s H100 (u odnosu na A100), zatim 2.4 puta s B200 (u odnosu na H100), te 2.2 puta s B300 (u odnosu na B200). Naravno, stvarna izvedba ovisi i o memorijskoj propusnosti, veličini modela, softverskoj optimizaciji, paralelizmu i upotrebi FP32 za akumulacije. No, realno je očekivati da Nvidia može udvostručiti performanse treniranja s novom generacijom GPU-ova.

Ako Nvidia uspije održati te stope rasta kroz četiri nove generacije (Rubin i Feynman), otprilike 650.000 Feynman Ultra GPU-ova bit će dovoljno za postizanje 50 ExaFLOPS-a u FP16/BF16 do 2029.

No, iako će xAI i ostali vjerojatno dosegnuti 50 BF16/FP16 ExaFLOPS-a u narednih četiri do pet godina, veliko je pitanje – koliko će energije takav superklaster trošiti? I koliko će nuklearnih elektrana biti potrebno da ga napaja?

Jedan H100 akcelerator troši oko 700 W, pa bi 50 milijuna GPU-ova trošilo 35 gigavata (GW) – što je ekvivalentno proizvodnji 35 nuklearnih elektrana, čineći takav podatkovni centar danas nerealnim. Čak i klaster baziran na Rubin Ultra arhitekturi trošio bi oko 9,37 GW, što je jednako ukupnoj potrošnji Francuske Gvajane. Ako pretpostavimo da Feynman arhitektura udvostručuje učinkovitost po vatu u odnosu na Rubin, tada bi klaster od 50 ExaFLOPS-a i dalje trošio 4,685 GW – znatno više od 1,4–1,96 GW koliko je planirano za Colossus 2 podatkovni centar xAI-a s milijun AI akceleratora.