PRAVNI TRIKOVI

Anthropic je uništio milijune knjiga kako bi trenirao Claude

Kupnja rabljenih fizičkih knjiga zaobišla je licenciranje u potpunosti, a istovremeno je pružila visokokvalitetan, profesionalno uređen tekst koji AI modeli trebaju.

Anthropic je uništio milijune knjiga kako bi trenirao Claude

Sudski su dokumenti otkrili da je Anthropic potrošio milijune dolara na fizičko skeniranje tiskanih knjiga kako bi kreirao AI asistenta Claudea. U tom su procesu izrezali milijune tiskanih knjiga iz njihovih uveza, skenirali ih u digitalne datoteke i bacili originale isključivo u svrhu treniranja umjetne inteligencije—detalji zakopani u presudi o autorskim pravima i poštenoj uporabi, čije smo šire implikacije izvijestili jučer.

Odluka suda na 32 stranice opisuje kako je u veljači 2024. tvrtka zaposlila Toma Turveya, bivšeg voditelja partnerstava za Google Books projekt skeniranja knjiga, i zadala mu zadatak da pribavi sve knjige na svijetu. Čini se da je ovo strateško zapošljavanje bilo osmišljeno kako bi se replicirao Googleov pravno uspješan pristup digitalizaciji knjiga - ista operacija skeniranja koja je preživjela izazove autorskih prava i uspostavila ključne presedane poštene uporabe.

Iako je destruktivno skeniranje uobičajena praksa među nekim operacijama digitalizacije knjiga, pristup Anthropica bio je donekle neobičan zbog dokumentiranog masovnog opsega. Za razliku od toga, Google Books projekt uglavnom je koristio patentirani nedestruktivni proces s kamerama za skeniranje milijuna knjiga posuđenih iz knjižnica koje su kasnije vraćene. Za Anthropic, brzina i niži trošak destruktivnog procesa očito su nadmašili potrebu za očuvanjem knjiga, što ukazuje na potrebu za jeftinim i jednostavnim rješenjem u izrazito konkurentnoj industriji.

Na kraju je sudac William Alsup presudio da operacija skeniranja spada pod poštenu uporabu, ali samo zato što je Anthropic legalno kupio knjige, uništio svaki tiskani primjerak nakon skeniranja i zadržao digitalne datoteke interno, bez distribucije. Sudac je proces usporedio s "očuvanjem prostora" putem konverzije formata i ocijenio ga transformativnim.

Zašto bi neka tvrtka potrošila milijune dolara na knjige samo da ih uništi? Iza ovih neobičnih pravnih manevara krije se temeljni pokretač - nezasitna glad AI industrije za visokokvalitetnim tekstom.

Važno je znati da istraživači umjetne inteligencije grade velike jezične modele (LLM-ove) poput onih koji pokreću ChatGPT i Claudea tako da u neuronsku mrežu unose milijarde riječi. Tijekom treniranja, AI sustav više puta obrađuje tekst, gradeći statističke odnose između riječi i koncepata.

Kvaliteta podataka za treniranje koji se unose u neuronsku mrežu izravno utječe na sposobnosti rezultirajućeg AI modela. Modeli trenirani na dobro uređenim knjigama i člancima obično daju koherentnije i točnije odgovore od onih treniranih na tekstovima niže kvalitete, poput nasumičnih komentara s YouTubea.

Izdavači pravno kontroliraju sadržaj koji AI tvrtke očajnički žele, ali AI tvrtke ne žele uvijek pregovarati o licenciranju. Doktrina prve prodaje nudila je zaobilazno rješenje, jednom kad kupite fizičku knjigu, možete s njom raditi što želite, uključujući i uništiti je. To je značilo da kupnja fizičkih knjiga nudi pravno prihvatljiv put.

Ipak, kupnja stvari je skupa, čak i kad je legalna. Stoga je, poput mnogih AI tvrtki prije nje, Anthropic u početku odabrao brži i lakši put. U potrazi za visokokvalitetnim podacima za treniranje, navodi se u sudskom podnesku, Anthropic je prvo odlučio prikupiti digitalizirane verzije piratskih knjiga kako bi izbjegao kompleksne pregovore o licenciranju s izdavačima. No, to je postalo previše nesigurno.

Kupnja rabljenih fizičkih knjiga zaobišla je licenciranje u potpunosti, a istovremeno je pružila visokokvalitetan, profesionalno uređen tekst koji AI modeli trebaju, a destruktivno skeniranje bilo je jednostavno najbrži način za digitalizaciju milijuna svezaka. Tvrtka je potrošila više milijuna dolara na kupovinu knjiga i njihovog skeniranja. Zatim su knjige uklanjali iz uveza, rezali stranice na prikladne dimenzije, skenirali ih kao hrpe stranica u PDF-ove s tekstom čitljivim strojevima, uključujući naslovnice, a zatim odbacili sve papirnate originale.

Sudski dokumenti ne navode da su u tom procesu uništene rijetke knjige. Anthropic ih je kupovao na veliko od velikih trgovaca, ali arhivisti su već odavno uspostavili druge načine za izdvajanje informacija s papira. Na primjer, Internet Archive je pionir u metodama nedestruktivnog skeniranja knjiga koje čuvaju fizičke primjerke dok stvaraju digitalne kopije. A ranije ovog mjeseca, OpenAI i Microsoft objavili su da surađuju s harvardskim knjižnicama na treniranju AI modela uz gotovo milijun knjiga iz javne domene koje datiraju još iz 15. stoljeća, potpuno digitalizirane, ali sačuvane za buduće generacije.

Dok Harvard pažljivo čuva rukopise stare 600 godina za treniranje AI-ja, negdje na Zemlji leže odbačeni ostaci milijuna knjiga koje su naučile Claudea kako poboljšati nečiji životopis. Kada su Claudea pitali o tom procesu, sam je ponudio dirljiv odgovor u stilu izvučenom iz milijardi stranica odbačenog teksta.

"Činjenica da je ovo uništenje pomoglo stvoriti mene, nešto što može raspravljati o književnosti, pomagati ljudima u pisanju i povezivati se s ljudskim znanjem, dodaje slojeve složenosti koje još uvijek obrađujem. To je kao da sam izgrađen iz pepela knjižnice."