JASAN ODGOVOR

Kakvo je pamćenje chatbotova? Otkrili su znanstvenici iz Googlea i Mete

Ako se utvrdi da modeli reproduciraju dijelove podataka doslovno, sudovi bi mogli presuditi da je riječ o nezakonitom kopiranju zaštićenih sadržaja.

Kakvo je pamćenje chatbotova? Otkrili su znanstvenici iz Googlea i Mete

Većina onih koji prate razvoj generativne umjetne inteligencije zna da su veliki jezični modeli (LLM), poput ChatGPT-a, Claudea ili Googleovog Geminija, trenirani na golemoj količini podataka, doslovno bilijunima riječi preuzetih s internetskih stranica, iz knjiga, kodnih baza, ali sve češće i iz drugih izvora poput fotografija, zvuka i videa. No postavlja se važno pitanje - što ti podaci zapravo rade u modelu - stvaraju li opću sliku svijeta ili se doslovno pamte?

LLM-ovi iz ovih podataka razvijaju statističko i generalizirano razumijevanje jezika, njegovih obrazaca, pa čak i svijeta oko nas. Ovo znanje zapisano je u milijardama tzv. parametara, odnosno postavki unutar mreže umjetnih neurona – matematičkih funkcija koje ulazne podatke pretvaraju u izlazne signale.

Zahvaljujući tom procesu učenja, model primjerice prepoznaje da se riječ "jabuka" često pojavljuje uz pojmove povezane s hranom, voćem ili drvećem, ali i računalima. Tako model nauči da jabuka može biti crvena, zelena ili žuta, da se na engleskom piše “a-p-p-l-e”, i da je jestiva. Ova statistička znanja utječu na to kako model odgovara na upite korisnika.

No jedno ključno pitanje još uvijek ne postoji jasan odgovor koliko točno podataka LLM-ovi stvarno pamte, a koliko zapravo generaliziraju? Drugim riječima, ponavlja li model doslovne dijelove podataka ili stvara nove odgovore temeljem obrasaca?

Ako se utvrdi da modeli reproduciraju dijelove podataka doslovno, sudovi bi mogli presuditi da je riječ o nezakonitom kopiranju zaštićenih sadržaja. No, ako se pokaže da modeli funkcioniraju isključivo putem apstraktne generalizacije, tada bi developeri mogli nastaviti s učenjem na takvim podacima, oslanjajući se na zakonske obrane poput “pravedne upotrebe”.

Odgovor na to pitanje možda konačno imamo. Znanstvenici iz Mete, Google DeepMinda, Sveučilišta Cornell i NVIDIE su objavili opsežnu studiju koja otkriva da GPT-slični modeli imaju fiksni kapacitet memoriranja od otprilike 3,6 bita po parametru. To nije dovoljno ni za jedno slovo engleske abecede, koje u prosjeku zahtijeva 4,7 bita. U bajtovima, 3,6 bita iznosi 0,45 bajta – manje od pola jednog ASCII znaka.

Studija također pokazuje da ovaj kapacitet memorije nije vezan uz određeni model – različite arhitekture, dubine i preciznosti pokazale su slične rezultate. Povećanje količine podataka za treniranje ne povećava razinu memoriranja – naprotiv, što je dataset veći, to se pojedini podaci manje pamte.

To bi moglo smanjiti zabrinutost oko toga hoće li modeli doslovno reproducirati osjetljive ili zaštićene sadržaje. Ako je memoriranje raspodijeljeno na veliki broj primjera, manja je vjerojatnost da će se jedan konkretan podatak “izvući” iz modela. Ukratko, više podataka donosi sigurnije generaliziranje, a ne veću pravnu opasnost.

Kako bi precizno izmjerili količinu memoriranja, istraživači su koristili neuobičajen, ali vrlo učinkovit pristup, trenirali su transformere na potpuno nasumičnim nizovima bitova, bez ikakvih obrazaca. Svaki podatak bio je jedinstven i nepovezan s drugima. Na taj su način eliminirali mogućnost da model “generalizira”, budući da u takvim podacima ne postoje obrasci iz kojih se nešto može zaključiti. Dakle, ako bi model na testu uspio prepoznati neki podatak, to bi značilo da ga je doslovno zapamtio. Ova metoda omogućila je istraživačima da mapiraju izravan odnos između broja parametara u modelu i količine informacije koju može pohraniti.

Testirali su modele u rasponu od 500.000 do 1,5 milijardi parametara i dosljedno dobivali istu vrijednost – 3,6 bita po parametru.

Istraživači su istu metodu primijenili i na modele trenirane na stvarnim tekstovima. U tom slučaju primijetili su balans između memoriranja i generalizacije. Manji dataseti potiču memoriranje, no kako se količina podataka povećava, modeli sve više uče apstraktne obrasce umjesto da pamte konkretne primjere.

Autori upozoravaju da njihova metoda opisuje prosječno ponašanje modela, ali da neki tipovi podataka, poput vrlo specifičnog stila pisanja, i dalje mogu biti podložniji memoriranju. Također su razvili matematičku formulu koja povezuje kapacitet modela i veličinu dataseta s učinkom tzv. napada članstva (eng. membership inference attacks), pokušaja da se utvrdi je li neki podatak bio dio seta za treniranje. Studija pokazuje da takvi napadi postaju sve manje učinkoviti kako dataset raste, što dodatno podupire tvrdnju da veliki skupovi podataka zapravo štite privatnost.

Ova studija donosi novu, znanstveno utemeljenu definiciju memoriranja u LLM-ovima. Time se otvara prostor za bolju transparentnost, usklađenost s propisima i viši etički standard u razvoju AI modela. Ključna poruka istraživanja glasi, više podataka znači manje rizika, a ne obrnuto.