POSEBNA TEHNOLOGIJA

Google uvodi poboljšanje za borbu sa spam porukama na Gmailu

Google uvodi poboljšanje za borbu sa spam porukama na Gmailu
Depositphotos

Google uvodi novu nadogradnju filtara neželjene pošte ili spama u Gmailu koju naziva "jednim od najvećih sigurnosnih nadogradnji posljednjih godina".

Dolazi u obliku novog sustava klasifikacije teksta nazvanog RETVec, što predstavlja otporni i učinkoviti vektor teksta. Google tvrdi da to može pomoći u razumijevanju "adversarialnih manipulacija teksta" - to su e-pošte prepune posebnih znakova, emojiija, grešaka u tipkanju i drugih nepotrebnih znakova koji su ranije bili čitljivi za ljude, ali ne i lako razumljivi za strojeve. Ranije su e-pošte s neobičnim znakovima lako prolazile kroz Gmailove obrambene sustave.

"RETVec je obučen da bude otporan na manipulacije znakovima na razini karaktera, uključujući umetanje, brisanje, greške u tipkanju, homoglyphe, LEET zamjene i još mnogo toga. Model RETVec obučen je na temelju novog enkodera karaktera koji može učinkovito enkodirati sve UTF-8 znakove i riječi. Stoga, RETVec radi izvan okvira na preko 100 jezika bez potrebe za lookup tablicom ili fiksnom veličinom rječnika", poručili su iz Googlea.

Tvrdi se i da je ovdje učinkovitost velika stvar. Alternativni pristupi koji su koristili "fiksnu veličinu rječnika" ili "lookup tablicu" za homoglyphe činili su ih resursno zahtjevnima za pokretanje. Zamislite popis svih mogućih pravopisa i krivopisa "čestitam" koji zamjenjuje jedno ili više slova brojevima, matematičkim simbolima, ćiriličnim, hebrejskim ili emojiima, i imate gotovo beskrajnu listu.

RETVec je open source, i Google se nada da će se riješiti homoglyph napada, tako da ga čak i vaš lokalni komentarski odjeljak može koristiti jednog dana.

Također, izgleda kao da funkcionira slično kao kako ljudi čitaju. To je TensorFlow model strojnog učenja koji koristi "sličnost" kako bi identificirao značenje riječi umjesto njihovog stvarnog znakovnog sadržaja. Googleova demo verzija sličnosti koristi istu tehnologiju za identificiranje slika mačaka, pa pretvaranje toga u najfunkcionalniji sustav za prepoznavanje optičkih znakova na svijetu zvuči prilično ostvarivo. Navodno je ovakav pristup doveo do velikih poboljšanja.

"Zamjena prethodnog vektorizatora teksta Gmail spam klasifikatora s RETVec-om omogućila nam je poboljšanje stope otkrivanja neželjene pošte iznad osnovne razine za 38 posto i smanjenje stope lažnih pozitiva za 19,4 posto. Dodatno, korištenje RETVec-a smanjilo je upotrebu modela TPU za 83 posto, čineći RETVec implementaciju jednom od najvećih obrambenih nadogradnji u posljednjim godinama", poručuju iz Googlea.

Dodaje se i da RETVec testiran interno tijekom protekle godine i uveden u Gmail račune.