GoogleBot će od 1. rujna ignorirati Robots.txt direktive

19.07.2019.

Veličina fontaPrint

GoogleBot će od 1. rujna ignorirati Robots.txt direktive

Google je i službeno objavio da GoogleBot više neće slušati direktive koje mu zadaje Rrobots.txt po pitanju indeksiranja web stranica. Konkretnije, izdavači koji se oslanjaju na robots.txt imaju vremena do 1. rujna ove godine ukloniti ga i početi koristiti alternativu.

"Stiglo je vrijeme za reći zbogom nedokumentiranim i nepodržanim pravilima u robots.txt. Ako ste se oslanjali na njih, savjetujemo da se upoznate s mogućnostima koja se nude kao alternativa, naveo je Google.

Na ovaj se potez Google odlučio jer direktive koje daje robots.txt nisu službene, a takvu situaciju Alphabetova najunosnija kompanija više ne želi imati na svojim leđima. Tako nešto svakako nije najbolja odluka za izdavače jer NoIndex direktiva u robots.txt bila je poprilično efektna, radila je u 11 od 12 testiranih slučajeva.

Povijesno gledano, tužan će biti 1. rujna. Jer, robots.txt stvoren je 1994. kao način za ograničavanje web crawlera u onome što mogu, a što ne mogu indeksirati na web stranicama. Datoteka zabranjuje, odnosno zabranjivala je, indeksiranje određenih stranica na web stranici, te ih na taj način zadržati van rezultata pretraživanja na internet tražilicama. Zato je Google i koristio robots.txt od prvog dana, kao više nego dobru pomoć u obavljanju pretraga, kao i baratanju njima.

Detaljnije, u praksi robots.txt koristimo za kontroliranje pristupa našoj domeni za web crawlere. Web crawleri ili web spideri su programi koji automatski prolaze internetom i prikupljaju informacije za koje su osmišljeni. Web crawleri mogu biti dobri, kao što su Google, Bing i ostali crawleri koji prikupljaju informacije za tražilice. A sa druge strane postoje i loši, odnosno web crawleri čije crawlanje ne želimo, a to su crawleri koji npr. prikupljaju podatke za spamere.

Cijela stvar radi na način da kada web spider dođe na određenu web stranicu, prvo provjerava što se nalazi u robots.txt dokumentu, te nastavlja dalje, ako mu je to dopušteno. Dakle, Google se prilikom pretraga više neće oslanjati na robots.txt već će ga ignorirati.

Kao pet načina za kontrolu indeksiranja, Google preporuča: Noindex u robots meta tagovima, 404 i 410 HTTP statusnim kodovima, zaštitu lozinki, odbijanje (eng., disallow) u robots.txt i alat za uklanjanje URL-a u konzoli za pretragu.

GoogleBot će od 1. rujna ignorirati Robots.txt direktive

SPONZORIRANO

Hrvatski Telekom ima najbolju ponudu za turiste: Neograničen internet i popust od 30% na vožnju Uberom

Poziv koji ne propuštaš – Dan planeta Zemlje

Kako smo čuvali podatke kroz povijest

7 stvari koje ćete zavoljeti kod HUAWEI FreeClip slušalica

Podvodni snimatelj Pawel Achtel o novoj eri snimanja filmova visoke razlučivosti

NAJNOVIJE

Swisscom i Ericsson produžili strateško partnerstvo

Intel ili AMD - čiji procesor izabrati?

Ovo su četiri programska jezika koja vrijedi naučiti ili usavršiti

Honor Magic V2 je najtanji preklopni pametni telefon na svijetu

Netflix u tri mjeseca došao do više od devet milijuna novih pretplatnika

NAJČITANIJE

7 stvari koje ćete zavoljeti kod HUAWEI FreeClip slušalica

Evo koliko Jeff Bezos zaradi u jednoj sekundi

Huawei FreeClips slušalice prilagođavaju se svakoj situaciji, od fitnessa do posla

Tržište podatkovnih centara u jugoistočnoj Europi raste više od 55 posto

Generativna umjetna inteligencija nije sveprisutna u poslovnom svijetu i neće još barem neko vrijeme

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

GoogleBot će od 1. rujna ignorirati Robots.txt direktive

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku