NOVI ISKORAK

Umjetna inteligencija uskoro će raditi zadatke za koje ljudima trebaju tjedni

Općenito, vremenski horizont 13 vodećih AI modela udvostručio se otprilike svakih sedam mjeseci od 2019.

Umjetna inteligencija uskoro će raditi zadatke za koje ljudima trebaju tjedni
Depositphotos

Sustavi umjetne inteligencije (AI) koji danas postoje ne mogu pobijediti ljude u dugotrajnim zadacima, ali se poboljšavaju brzim tempom i mogli bi smanjiti taj jaz prije nego što su mnogi očekivali, stoji u analizi METR-a, neprofitne organizacije iz Berkeleyja u Kaliforniji.

Za njene potrebe, stvorila je gotovo 170 zadataka iz stvarnog svijeta u kodiranju, kibernetičkoj sigurnosti, općem zaključivanju i strojnom učenju, a zatim je uspostavila "ljudsku osnovu" mjereći koliko je vremena trebalo stručnim programerima da ih dovrše.

Tim je zatim razvio metriku za procjenu napretka AI modela, koju naziva "vremenski horizont dovršetka zadataka". To je vrijeme koje programeri obično trebaju za dovršetak zadataka koje AI modeli mogu dovršiti s određenom stopom uspješnosti.

U pretisku objavljenom na arXiv-u ovaj tjedan, METR izvještava da GPT-2, rani veliki jezični model (LLM) koji je OpenAI objavio 2019. godine, nije uspio izvršiti sve zadatke koji su ljudskim stručnjacima trajali više od jedne minute. Claude 3.7 Sonnet, koji je u veljači objavio američki startup Anthropic, dovršio je 50 posto zadataka za koje bi ljudima trebalo 59 minuta.

Općenito, vremenski horizont 13 vodećih AI modela udvostručio se otprilike svakih sedam mjeseci od 2019. godine, navodi se u radu. Eksponencijalni rast vremenskih horizonata AI-ja ubrzao se prošle godine, pri čemu su najnoviji modeli udvostručili svoj horizont otprilike svaka tri mjeseca.

Prema stopi napretka od 2019. do 2024. godine, METR sugerira da će AI modeli moći obavljati zadatke za koje ljudima treba otprilike mjesec dana s 50 posto pouzdanosti do 2029., a možda i ranije.

Mjesec dana posvećenog ljudskog stručnog znanja može biti dovoljno za pokretanje nove tvrtke ili znanstvena otkrića, na primjer. Ali Joshua Gans, profesor menadžmenta na Sveučilištu u Torontu u Kanadi, koji je pisao o ekonomiji AI-ja, kaže da ove vrste predviđanja nisu toliko korisne.

"Ekstrapolacije su primamljive, ali još uvijek ima toliko toga što ne znamo o tome kako će se AI zapravo koristiti da bi bile smislene."

Tim je odabrao stopu uspješnosti od 50 posto jer je bila najotpornija na male promjene u raspodjeli podataka.

"Ako odaberete vrlo niske ili vrlo visoke pragove, uklanjanje ili dodavanje jednog uspješnog ili jednog neuspješnog zadatka, mijenja vašu procjenu u velikoj mjeri", kaže koautor Lawrence Chan.

Podizanje praga pouzdanosti s 50 posto na 80 posto smanjilo je prosječni vremenski horizont za faktor pet - iako su ukupno vrijeme udvostručavanja i trend linija bili slični.

U proteklih pet godina, poboljšanja općih sposobnosti LLM-ova uglavnom su potaknuta povećanjem razmjera - količinom podataka za obuku, vremenom obuke i brojem parametara modela. Rad pripisuje napredak na metriku vremenskog horizonta uglavnom poboljšanjima u logičkom zaključivanju AI-ja, korištenju alata, ispravljanju pogrešaka i samosvijesti u izvršavanju zadataka.

Vodeći AI modeli postižu nadljudske performanse na mnogim mjerilima, ali su imali relativno mali ekonomski utjecaj, kaže West. METR-ovo najnovije istraživanje nudi djelomičan odgovor na ovu zagonetku: najbolji modeli nalaze se oko 40-minutnog vremenskog horizonta, a nema mnogo ekonomski vrijednog posla koji osoba može obaviti u tom vremenu.