IZNIMNO JEFTINO

DeepSeek tvrdi da je treniranje modela R1 koštalo manje od 300.000 dolara

Sam Altman, CEO američkog OpenAI-ja, izjavio je 2023. da treniranje temeljnih modela stoji puno više od 100 milijuna dolara, iako njegova tvrtka nikad nije objavila konkretne brojke.

DeepSeek tvrdi da je treniranje modela R1 koštalo manje od 300.000 dolara
Depositphotos

Kineski DeepSeek tvrdi da je svoj AI model R1 trenirao za samo 294.000 dolara, daleko manje od američkih konkurenata. Ova objava, iz recenziranog znanstvenog časopisa Nature, ponovno je otvorila rasprave o ulozi Pekinga u globalnoj utrci za razvoj AI-a.

Tvrtka sa sjedištem u Hangzhouu prvi put je iznijela procjenu troškova treniranja R1 modela, navodeći da je korišteno 512 Nvidia H800 čipova. U prethodnoj verziji rada, objavljenoj u siječnju, ti podaci nisu bili navedeni.

Troškovi treniranja velikih jezičnih modela odnose se na goleme izdatke za pokretanje klastera snažnih čipova tjednima ili mjesecima, kako bi obradili ogromne količine teksta i koda. Sam Altman, CEO američkog OpenAI-ja, izjavio je 2023. da treniranje temeljnih modela stoji puno više od 100 milijuna dolara, iako njegova tvrtka nikad nije objavila konkretne brojke.

DeepSeekove tvrdnje već su izazvale skepsu među američkim kompanijama i dužnosnicima. Sporna je prije svega uporaba čipova. Nvidia H800 razvijen je specifično za kinesko tržište nakon što je SAD 2022. zabranio izvoz snažnijih H100 i A100 čipova u Kinu. Američki dužnosnici su u lipnju tvrdili da DeepSeek ipak ima velike količine H100 čipova nabavljenih nakon uvođenja kontrole izvoza, dok je Nvidia tada izjavila da tvrtka koristi zakonito nabavljene H800 čipove.

U dokumentu koji prati rad u Natureu, DeepSeek je prvi put priznao da posjeduje A100 čipove, koje je koristio u pripremnim fazama razvoja. Nakon toga, R1 model treniran je ukupno 80 sati na klasteru od 512 H800 čipova. Upravo zahvaljujući A100 superračunalnom klasteru, DeepSeek je, prema Reutersu, uspio privući neke od najtalentiranijih stručnjaka u Kini.

Kompanija se također neizravno osvrnula na optužbe iz SAD-a da je njezin model rezultat destilacije OpenAI-jevih rješenja. DeepSeek kontinuirano brani distillation pristup, tvrdeći da takva metoda osigurava bolje performanse modela, a istovremeno značajno snižava troškove i potrošnju energije, čineći AI dostupnijim širem krugu korisnika.

Destilacija podrazumijeva da jedan AI sustav uči od drugog, čime se preuzimaju znanja i resursi većeg modela bez ponavljanja istih ulaganja u računalnu snagu i vrijeme. DeepSeek je već ranije priznao da je koristio Metin open-source model Llama za pojedine destilirane verzije vlastitih rješenja.

U članku u Natureu navedeno je i da je treniranje DeepSeekova V3 modela uključivalo web stranice koje su sadržavale značajan broj odgovora generiranih OpenAI modelima, što je moglo dovesti do toga da model neizravno preuzima znanje od drugih AI sustava. Tvrtka je naglasila da to nije bilo namjerno, već slučajno.

Svašta se tu očito događalo, a uvijek je pitanje što netko smatra troškovima, ako ih netko drugi pokriva, onda to nisu troškovi nego subvencije. A što netko smatra kada koristi tuđi rad i onda misli da je pritom ispao bolji, a troškova nema jer ih je imao netko drugi. Dobra fora zar ne?!