NVIDIA BlueField-4 pokreće NVIDIA Inference Context Memory Storage Platform, novu vrstu AI-native infrastrukturne pohrane dizajnirane za inferenciju u gigaskali, s ciljem ubrzavanja i skaliranja agentne umjetne inteligencije. Nova platforma procesora za pohranu razvijena je za agentne AI sustave s dugotrajnim kontekstnim procesiranjem te omogućuje iznimno brzu kratkoročnu i dugoročnu memoriju. Inference Context Memory Storage Platform proširuje dugoročnu memoriju AI agenata i omogućuje dijeljenje konteksta velike propusnosti među klasterima rack-scale AI sustava, čime se povećava broj tokena u sekundi i energetska učinkovitost do pet puta. Uz podršku NVIDIA Spectrum-X Eth erneta, proširena kontekstna memorija za višekratne interakcije AI agenata poboljšava odzivnost, povećava propusnost po GPU-u i omogućuje učinkovito skaliranje agentne inferencije.
Na CES-u je NVIDIA objavila da NVIDIA BlueField-4 data procesor, dio cjelovitog NVIDIA BlueField ekosustava, pokreće NVIDIA Inference Context Memory Storage Platform, novu klasu AI-native infrastrukturne pohrane za sljedeću fazu razvoja umjetne inteligencije. Kako se AI modeli šire na bilijune parametara i višekorakno zaključivanje, generiraju goleme količine kontekstnih podataka, predstavljenih kroz key-value (KV) cache, koji je ključan za točnost, korisničko iskustvo i kontinuitet rada. KV cache se dugoročno ne može pohranjivati na GPU-ovima jer bi to stvorilo usko grlo za inferenciju u stvarnom vremenu u višagentnim sustavima, zbog čega AI-native aplikacije zahtijevaju novu vrstu skalabilne infrastrukture za pohranu i dijeljenje tih podataka.
NVIDIA Inference Context Memory Storage Platform osigurava infrastrukturu za kontekstnu memoriju proširujući GPU memorijski kapacitet, omogućujući brzo dijeljenje među čvorovima, povećavajući broj tokena u sekundi do pet puta i isporučujući do pet puta veću energetsku učinkovitost u usporedbi s tradicionalnom pohranom. Jensen Huang, osnivač i glavni izvršni direktor NVIDIA-e, istaknuo je kako umjetna inteligencija transformira cijeli računalni sustav, a sada i pohranu, naglašavajući da AI više nije ograničen na jednokratne chatbotove, već se razvija u inteligentne suradnike koji razumiju fizički svijet, zaključuju u dugim vremenskim horizontima, ostaju utemeljeni na činjenicama, koriste alate za stvarni rad te zadržavaju kratkoročnu i dugoročnu memoriju. Prema njegovim riječima, BlueField-4 omogućuje reinvenciju pohrambenog sloja za sljedeću granicu AI-ja.
Inference Context Memory Storage Platform povećava KV cache kapacitet i ubrzava dijeljenje konteksta među klasterima rack-scale AI sustava, dok trajni kontekst za višekratne interakcije AI agenata poboljšava odzivnost, povećava propusnost AI tvornica i podržava učinkovito skaliranje dugotrajnog, višagentnog zaključivanja. Ključne mogućnosti platforme uključuju KV cache kapacitet na razini NVIDIA Rubin klastera, do pet puta veću energetsku učinkovitost u odnosu na tradicionalnu pohranu, inteligentno i ubrzano dijeljenje KV cachea među AI čvorovima uz pomoć NVIDIA DOCA okvira te integraciju s NVIDIA NIXL bibliotekom i NVIDIA Dynamo softverom radi maksimalnog broja tokena u sekundi, kraćeg vremena do prvog tokena i bolje višekratne odzivnosti. Hardverski ubrzano upravljanje smještajem KV cachea putem BlueField-4 eliminira metapodatkovni overhead, smanjuje prijenos podataka i osigurava siguran, izoliran pristup s GPU čvorova, dok NVIDIA Spectrum-X Ethernet omogućuje učinkovito dijeljenje i dohvat podataka kroz RDMA-temeljenu mrežnu infrastrukturu. Inovacijske tvrtke u području pohrane, uključujući AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data i WEKA, među prvima su koje razvijaju sljedeću generaciju AI pohrambenih platformi temeljenih na BlueField-4, čija se dostupnost očekuje u drugoj polovici 2026. godine.
Razvoj AI-native pohrane predstavlja ključni pomak u arhitekturi podatkovnih centara jer agentni i multimodalni AI sustavi zahtijevaju dugotrajno zadržavanje i brzu razmjenu konteksta između više instanci i korisnika. Kako se modeli sve više oslanjaju na dugoročnu memoriju za zaključivanje, personalizaciju i kontinuitet zadataka, klasični pohrambeni sustavi postaju ograničavajući faktor u performansama i potrošnji energije. Integracija mreže, pohrane i obrade podataka kroz specijalizirane DPU-ove omogućuje odvajanje memorijskih i komunikacijskih opterećenja od GPU-ova, čime se oslobađaju resursi za samu inferenciju. Ovakav pristup postaje temelj za buduće AI tvornice, u kojima se učinkovitost mjeri ne samo sirovom računalnom snagom, već i sposobnošću sustava da upravlja kontekstom, memorijom i energijom u velikim razmjerima. U tom smislu, AI-native pohrana sve se više promatra kao strateška komponenta digitalne infrastrukture, jednako važna kao procesori i mreže, osobito u okruženjima koja ciljaju dugotrajne, autonomne i agentno vođene AI aplikacije.