https://www.ictbusiness.info

Link: https://www.ictbusiness.info / internet / stigao-je-darkbert-chatgpt-treniran-kroz-podatke-s-dark-weba

Stigao je DarkBERT: ChatGPT treniran kroz podatke s dark weba!

Učinak koji će imati Large Language Models (LLM) kao što je ChatGPT još uvijek se ne može procijeniti u potpunosti, ali činjenica je da imamo sve veći broj aplikacija koje koriste umjestnu inteligenciju. Nažalost, zato već znamo da se alati kao ChatGPT mogu koristiti i za stvaranje vrlo naprednog malwarea. U shvaćanju tog je pomogao DarkBERT.

Kreiran je u Južnoj Koreji i učio je kroz podatke s dark weba, odnosno, kako se sve može služiti njima. Temelji se na arhitekturi RoBERTa, pristupu umjetne inteligencije razvijene još 2019. Doživio je svojevrsnu renesansu, a istraživači su otkrili da zapravo ima više performansi nego što se moglo izvući iz njega 2019. Čini se da je model bio nedovoljno obučen kad je predstavljen, odnosno, daleko ispod maksimalnih učinkovitosti.

Kako bi trenirali model, istraživači su indeksirali Dark Web kroz anonimni firewall mreže Tor, a zatim filtrirali neobrađene podatke primjenom tehnika kao što su deduplikacija, balansiranje kategorija i pretprocesiranje podataka kako bi generirali bazu podataka Dark Weba. I, voila!

DarkBERT je rezultat te baze podataka koja se koristi za napajanje RoBERTa Large Language Modela, koji može analizirati novi dio sadržaja Dark Weba, napisanog vlastitim "dijalektima" i jako kodiranih poruka, te iz njega izvući korisne informacije.

Reći da je engleski poslovni jezik Dark Weba ne bi bilo sasvim točno, ali to je dovoljno specifična izmišljotina da istraživači vjeruju da se određeni LLM morao obučavati na njemu. Na kraju su bili u pravu, pokazalo se da DarkBERT nadmašuje druge LLM-e, što bi trebalo omogućiti stručnjacima za sigurnost i tijelima za provedbu zakona da prodru dublje u "krivine" weba. To je, uostalom, mjesto gdje je većina akcije.

Kao i kod drugih LLM-a, to ne znači da je DarkBERT gotov. Njegova daljnja obuka i "ugađanje" mogu nastaviti poboljšavati rezultate. Kako će se koristiti i koja se znanja mogu prikupiti, ostaje za vidjeti...