GoogleBot će od 1. rujna ignorirati Robots.txt direktive

GoogleBot će od 1. rujna ignorirati Robots.txt direktive

Foto: Depositphotos

Google je i službeno objavio da GoogleBot više neće slušati direktive koje mu zadaje Rrobots.txt po pitanju indeksiranja web stranica. Konkretnije, izdavači koji se oslanjaju na robots.txt imaju vremena do 1. rujna ove godine ukloniti ga i početi koristiti alternativu.

"Stiglo je vrijeme za reći zbogom nedokumentiranim i nepodržanim pravilima u robots.txt. Ako ste se oslanjali na njih, savjetujemo da se upoznate s mogućnostima koja se nude kao alternativa", naveo je Google.

Na ovaj se potez Google odlučio jer direktive koje daje robots.txt nisu službene, a takvu situaciju Alphabetova najunosnija kompanija više ne želi imati na svojim leđima. Tako nešto svakako nije najbolja odluka za izdavače jer NoIndex direktiva u robots.txt bila je poprilično efektna, radila je u 11 od 12 testiranih slučajeva.

Povijesno gledano, tužan će biti 1. rujna. Jer, robots.txt stvoren je 1994. kao način za ograničavanje web crawlera u onome što mogu, a što ne mogu indeksirati na web stranicama. Datoteka zabranjuje, odnosno zabranjivala je, indeksiranje određenih stranica na web stranici, te ih na taj način zadržati van rezultata pretraživanja na internet tražilicama. Zato je Google i koristio robots.txt od prvog dana, kao više nego dobru pomoć u obavljanju pretraga, kao i baratanju njima.

Detaljnije, u praksi robots.txt koristimo za kontroliranje pristupa našoj domeni za web crawlere. Web crawleri ili web spideri su programi koji automatski prolaze internetom i prikupljaju informacije za koje su osmišljeni. Web crawleri mogu biti dobri, kao što su Google, Bing i ostali crawleri koji prikupljaju informacije za tražilice. A sa druge strane postoje i loši, odnosno web crawleri čije crawlanje ne želimo, a to su crawleri koji npr. prikupljaju podatke za spamere.

Cijela stvar radi na način da kada web spider dođe na određenu web stranicu, prvo provjerava što se nalazi u robots.txt dokumentu, te nastavlja dalje, ako mu je to dopušteno. Dakle, Google se prilikom pretraga više neće oslanjati na robots.txt već će ga ignorirati.

Kao pet načina za kontrolu indeksiranja, Google preporuča: Noindex u robots meta tagovima, 404 i 410 HTTP statusnim kodovima, zaštitu lozinki, odbijanje (eng., disallow) u robots.txt i alat za uklanjanje URL-a u konzoli za pretragu.

Još iz kategorije

Google promjenio izgled rezultata pretraživanja za desktope

Google promjenio izgled rezultata pretraživanja za desktope

20.01.2020. komentiraj

Google je predstavio nadograđeni izgled plaćenih i organskih rezultata pretrage na desktopu i sad podsjećaju više na ono što vidimo u mobilnom okruženju. To znači prvenstveno da se oznaka oglasa “Ad” ističe više no što se prije, baš kao i ikonica web stranice (favicon).

Facebook: Potpuna enkripcija Messengera će trajati godinama

Facebook: Potpuna enkripcija Messengera će trajati godinama

19.01.2020. komentiraj

Osnivač i izvršni direktor (CEO) Facebooka Mark Zuckerberg u ožujku prošle godine obvezao se omogućiti šifriranje s kraja na kraj. Ili, na engleskom, end-to-end enkripciju. Ipak, s razlogom nije naveo kad će ta mogućnost stići jer je svjestan svih poteškoća i sad je jasno da nećemo svjedočiti takvoj situaciji narednih nekoliko godina.

Više od 3,5 milijuna eura za dva projekta jačanja europske cyber sigurnosti

Više od 3,5 milijuna eura za dva projekta jačanja europske cyber sigurnosti

16.01.2020. komentiraj

Europska komisija pokrenula je dva projekta za izgradnju kapaciteta za cyber sigurnost i jačanje suradnje u vezi s  cyber prijetnjama i incidentima u EU-u. Riječ je o javnoj nabavi, u okviru programa za cyber sigurnost Instrumenta za povezivanje Europe (CEF), koji je dodijeljen nakon otvorenih poziva na podnošenje ponuda. Suradnja među europskim timovima za odgovor na računalne sigurnosne incidente (CSIRT) postala je ključna u strategijama za cyber sigurnost u Europi.