GoogleBot će od 1. rujna ignorirati Robots.txt direktive

GoogleBot će od 1. rujna ignorirati Robots.txt direktive
Depositphotos

Google je i službeno objavio da GoogleBot više neće slušati direktive koje mu zadaje Rrobots.txt po pitanju indeksiranja web stranica. Konkretnije, izdavači koji se oslanjaju na robots.txt imaju vremena do 1. rujna ove godine ukloniti ga i početi koristiti alternativu.

"Stiglo je vrijeme za reći zbogom nedokumentiranim i nepodržanim pravilima u robots.txt. Ako ste se oslanjali na njih, savjetujemo da se upoznate s mogućnostima koja se nude kao alternativa, naveo je Google.

Na ovaj se potez Google odlučio jer direktive koje daje robots.txt nisu službene, a takvu situaciju Alphabetova najunosnija kompanija više ne želi imati na svojim leđima. Tako nešto svakako nije najbolja odluka za izdavače jer NoIndex direktiva u robots.txt bila je poprilično efektna, radila je u 11 od 12 testiranih slučajeva.

Povijesno gledano, tužan će biti 1. rujna. Jer, robots.txt stvoren je 1994. kao način za ograničavanje web crawlera u onome što mogu, a što ne mogu indeksirati na web stranicama. Datoteka zabranjuje, odnosno zabranjivala je, indeksiranje određenih stranica na web stranici, te ih na taj način zadržati van rezultata pretraživanja na internet tražilicama. Zato je Google i koristio robots.txt od prvog dana, kao više nego dobru pomoć u obavljanju pretraga, kao i baratanju njima.

Detaljnije, u praksi robots.txt koristimo za kontroliranje pristupa našoj domeni za web crawlere. Web crawleri ili web spideri su programi koji automatski prolaze internetom i prikupljaju informacije za koje su osmišljeni. Web crawleri mogu biti dobri, kao što su Google, Bing i ostali crawleri koji prikupljaju informacije za tražilice. A sa druge strane postoje i loši, odnosno web crawleri čije crawlanje ne želimo, a to su crawleri koji npr. prikupljaju podatke za spamere.

Cijela stvar radi na način da kada web spider dođe na određenu web stranicu, prvo provjerava što se nalazi u robots.txt dokumentu, te nastavlja dalje, ako mu je to dopušteno. Dakle, Google se prilikom pretraga više neće oslanjati na robots.txt već će ga ignorirati.

Kao pet načina za kontrolu indeksiranja, Google preporuča: Noindex u robots meta tagovima, 404 i 410 HTTP statusnim kodovima, zaštitu lozinki, odbijanje (eng., disallow) u robots.txt i alat za uklanjanje URL-a u konzoli za pretragu.