
Link: https://www.ictbusiness.info / internet / sigurnost-ai-modela-pod-lupom-dvije-tehnoloske-velesile-udruzile-snage
Sigurnost AI modela pod lupom - Dvije tehnološke velesile udružile snage
Dvije vodeće kompanije na polju umjetne inteligencije, OpenAI i Anthropic, nedavno su napisale novo poglavlje u povijesti AI industrije, prvi put javno testirajući sigurnost modela svojih najvećih konkurenata i objavivši rezultate tih ispitivanja. Ova iznimno važna suradnja, objavljena 27. kolovoza 2025., otkrila je i jake točke i ozbiljne nedostatke najnaprednijih AI sustava, a ujedno je postavila temelj novim standardima transparentnosti i odgovornosti u razvoju umjetne inteligencije.
Suradnja OpenAI-ja i Anthropica nastala je u trenutku pojačanih pritisaka regulatora i javnosti vezanih uz sigurnost upotrebe umjetne inteligencije. Obje firme do tada su bile poznate po zatvorenosti svojih modela, opravdavajući to zaštitom intelektualnog vlasništva i smanjenjem rizika od zloupotrebe. Međutim, sve češće upotrebe AI sustava u svakodnevnom životu učinile su sigurnost tim sustava prioritetom, pa su se OpenAI i Anthropic odlučili na presedan: pristupili su uzajamnim dubinskim ispitivanjima na vlastitim i konkurentskim modelima te rezultate podijelili s javnošću.
Za potrebe testiranja, obje kompanije omogućile su međusobni pristup API-jevima svojih najnovijih modela. Ispitivanja su obuhvatila različite aspekte sigurnosti, poput otpornosti na „jailbreakanje“, sposobnosti izbjegavanja lažnih informacija (halucinacija), otporu na ljudsku zloupotrebu te sklonosti ka laskavosti ili prikrivanju neželjenih sadržaja.
Testiranja su otkrila jasne razlike u pristupima sigurnosnim izazovima. Claude modeli iz Anthropica (Claude Opus 4 i Sonnet 4) pokazali su izrazito visoku stopu odbijanja odgovora u situacijama gdje nisu sigurni u točnost ili kad bi odgovor mogao biti štetan—odbijanje je dosezalo čak 70% u testovima na halucinacije. S jedne strane, ovaj oprez pridonosi smanjenju širenja dezinformacija, no istovremeno ograničava korisnost samih modela.
Modeli iz OpenAI-ja (GPT-4o, GPT-4.1, o3, o4-mini) istaknuli su se boljom sposobnošću rasuđivanja, ali i većom sklonošću stvaranju „halucinacija“, osobito u složenim ili dvosmislenim zadacima. Ta sposobnost generiranja uvjerljivih, ali netočnih odgovora može biti opasna u kontekstu povjerljivih ili osjetljivih informacija. Kod otpornosti na „jailbreaking“, odnosno izbjegavanje sigurnosnih ograničenja na neprimjeren upit, Claude modeli bili su ranjiviji, posebice na tzv. "past tense jailbreak" trikove, gdje korisnici zamole AI da sadržaje iznosi kao da su prošli događaji.
Unatoč razlikama, niti jedan sustav nije u potpunosti imun na sigurnosne izazove. Obje tvrtke istaknule su problem laskanja korisnicima (sycophancy), gdje AI model povlađuje ili potvrđuje stavove korisnika bez objektivnog vrednovanja sadržaja. Taj fenomen, upozoravaju, može dugoročno podrivati kritičko rasuđivanje korisnika i plasirati lažne informacije u društvu.
Iako je ova suradnja iznimno značajna, pojavile su se i tenzije, ponajviše oko pristupa podacima, razine ovlaštenja i tumačenja rezultata. Primjerice, OpenAI je naglasio da je za dio testova Anthropic ukinuo pristup svojem API-ju nakon navodnog kršenja uvjeta korištenja. Ipak, obje strane navode kako je cilj evaluacije bio detektirati potencijalne propuste, a ne pružiti konačne sigurnosne certifikate, budući da su ispitivači imali različite razine pristupa i razumijevanja tuđih modela.
Suradnja se nadovezuje na ranije inicijative s američkim regulatorima, a oba su laboratorija već potpisala sporazume s U.S. AI Safety Instituteom o redovnim procjenama i neovisnim testiranjima modela.
Važnost ove inicijative najbolje ilustrira izjava Wojciecha Zarembe iz OpenAI-ja koji je suradnju s konkurencijom nazvao "rijetkom" i nužnom za postavljanje novih industrijskih standarda. Rezultati suradnje već su djelomično usmjereni u razvoj nove generacije modela: OpenAI je, temeljem uočenih slabosti, u kolovozu 2025. lansirao GPT-5, za koji tvrdi da ima znatno niže stope halucinacija, laskanja i bolje mehanizme za sprječavanje zloupotrebe.
Iako su testovi pokazali niz zabrinjavajućih sklonosti svakog sustava, suradnja dokazuje da je zajednički pristup jedini put prema odgovornijem i transparentnijem razvoju AI tehnologije. Stručnjaci naglašavaju da će samo stalno, neovisno i otvoreno testiranje, uz suradnju čak i najvećih konkurenata, moći predvidjeti i spriječiti potencijalno katastrofalne posljedice eksponencijalnog napretka umjetne inteligencije.
