GoogleBot će od 1. rujna ignorirati Robots.txt direktive

GoogleBot će od 1. rujna ignorirati Robots.txt direktive

Foto: Depositphotos

Google je i službeno objavio da GoogleBot više neće slušati direktive koje mu zadaje Rrobots.txt po pitanju indeksiranja web stranica. Konkretnije, izdavači koji se oslanjaju na robots.txt imaju vremena do 1. rujna ove godine ukloniti ga i početi koristiti alternativu.

"Stiglo je vrijeme za reći zbogom nedokumentiranim i nepodržanim pravilima u robots.txt. Ako ste se oslanjali na njih, savjetujemo da se upoznate s mogućnostima koja se nude kao alternativa", naveo je Google.

Na ovaj se potez Google odlučio jer direktive koje daje robots.txt nisu službene, a takvu situaciju Alphabetova najunosnija kompanija više ne želi imati na svojim leđima. Tako nešto svakako nije najbolja odluka za izdavače jer NoIndex direktiva u robots.txt bila je poprilično efektna, radila je u 11 od 12 testiranih slučajeva.

Povijesno gledano, tužan će biti 1. rujna. Jer, robots.txt stvoren je 1994. kao način za ograničavanje web crawlera u onome što mogu, a što ne mogu indeksirati na web stranicama. Datoteka zabranjuje, odnosno zabranjivala je, indeksiranje određenih stranica na web stranici, te ih na taj način zadržati van rezultata pretraživanja na internet tražilicama. Zato je Google i koristio robots.txt od prvog dana, kao više nego dobru pomoć u obavljanju pretraga, kao i baratanju njima.

Detaljnije, u praksi robots.txt koristimo za kontroliranje pristupa našoj domeni za web crawlere. Web crawleri ili web spideri su programi koji automatski prolaze internetom i prikupljaju informacije za koje su osmišljeni. Web crawleri mogu biti dobri, kao što su Google, Bing i ostali crawleri koji prikupljaju informacije za tražilice. A sa druge strane postoje i loši, odnosno web crawleri čije crawlanje ne želimo, a to su crawleri koji npr. prikupljaju podatke za spamere.

Cijela stvar radi na način da kada web spider dođe na određenu web stranicu, prvo provjerava što se nalazi u robots.txt dokumentu, te nastavlja dalje, ako mu je to dopušteno. Dakle, Google se prilikom pretraga više neće oslanjati na robots.txt već će ga ignorirati.

Kao pet načina za kontrolu indeksiranja, Google preporuča: Noindex u robots meta tagovima, 404 i 410 HTTP statusnim kodovima, zaštitu lozinki, odbijanje (eng., disallow) u robots.txt i alat za uklanjanje URL-a u konzoli za pretragu.

Još iz kategorije

Malware framework kreirao milijardu lažnih Google Adsense prikazivanja u svega 3 mjeseca

Malware framework kreirao milijardu lažnih Google Adsense prikazivanja u svega 3 mjeseca

20.08.2019. komentiraj

Stručnjaci za kibernetičku sigurnost u Flashpointu otkrili su da je novi malware frameworka uspio kreirati oko milijardu lažnih Google AdSense prikaza oglasa tijekom protekla tri mjeseca, ali nije se zaustavio na tome veać je generirao i lažne “lajkove” na YouTube i Twitch video sadržaju.

INFOGRAFIKA: Koliko je Facebook uspješan u detekciji lošeg sadržaja

INFOGRAFIKA: Koliko je Facebook uspješan u detekciji lošeg sadržaja

19.08.2019. komentiraj

Facebook je s godinama postao poprilično učinkovit po pitanju prepoznavanja lošeg sadržaja, posebno kad se radi o spamu, terorističkoj propagandi, pedofiliji, seksualnom iskorištavanju svake vrste, propagandi nasilja, pornografiji i sadržaju za odrasle kojem nije mjesto na najvećoj društvenoj mreži svijeta.

Stream online pornografije godišnje generira ugljičnog dioksida kao i cijela Belgija

Stream online pornografije godišnje generira ugljičnog dioksida kao i cijela Belgija

14.08.2019. komentiraj

Pornografija na internetu može biti samo nevina zabava odraslima, ali iza nje se krije i opasnost za okoliš, vjerovali ili ne. Naime, francuski The Shift Project analizirao je koliko se pornografskog sadržaja pregleda na godišnjoj razini pa izračunao koliko to generira ugljičnog dioksida (CO2) u Zemljinu atmosferu.