Nem támogatja szeptembertől a Google a noindex utasítást a robots.txt fájlban

A Google július másodikán <a href="https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html">bejelenttette</a>, hogy 2019 szeptember elsejétől kezdve a keresőmotor nem támogatja majd a robots.txt fájlban elhelyezett noindex utasításokat. Vessünk egy pillantást arra, hogy mit jelent ez, és milyen alternatív megoldásokat javasol a keresőóriás!

Mi az a robots.txt?

A robots.txt lényegében egy sima, mezei szövegfájl, ami különféle parancsokat, utasításokat, szabályokat tartalmaz a különféle internetes robotok számára. A robotok feladata feltérképezni az internetet (webhelyeket és azok weboldalait), lehetővé téve ezzel az online tartalmak indexelését.

A robots.txt fájl az első dolog, amit egy robot megvizsgál az adott webhellyel kapcsolatban. A robot „elolvassa” és értelmezi a fájl tartalmát, és figyelembe veszi az abban megfogalmazott szabályokat, például hogy mely oldalakat tilos indexelnie a webhelyen – ezt hívják noindex parancsnak.

Ebben a cikkben többet is megtudhatsz a robot.txt fájlról.

Mit jelentett be a Google?

A már emlegetett blogbejegyzésben a Google a következővel magyarázta döntését:

„Egy egészséges ökoszisztéma megőrzése érdekében, és hogy felkészülhessünk a jövendőbeli lehetséges nyílt forráskódú kiadásokra, 2019 szeptember 1-től figyelmen kívül hagyunk minden olyan kódot, ami nem támogatott és nem publikált szabályokat (pl. a noindexet) használ. Azoknak, akik a noindex indexelési utasítást használták a robot.txt fájlban, amely a feltérképezést szabályozza, itt van néhány alternatív megoldás:”

A Google a következő alternatívákat javasolja:

1. Noindex a robots meta címkékben: A HTTP válaszfejlécekben (response header) és a HTML-ben is támogatott noindex utasítás a leghatékonyabb megoldás, ha szeretnél bizonyos URL-eket kizárni az indexből (amennyiben a feltérképezés engedélyezett).

2. 404 és 410 HTTP állapotkódok: Mindkét állapotkód azt jelenti, hogy az oldal nem létezik, az ilyen URL-eket pedig a Google eltávolítja az indexéből, miután feltérképezte és feldolgozta őket.

3. Jelszavas védelem: Hacsak nincs megjelölve feliratkozáshoz, vagy fizetéshez kötött tartalomként, egy bejelentkezés mögé rejtett oldal általában törlődik majd a Google indexéből.

4. Feltérképezés tiltása a robots.txt-ben: A keresőmotorok csak az olyan oldalakat képesek feltérképezni, amikről tudnak is, ezért ha megtiltod egy oldal feltérképezését, akkor annak tartalma gyakran nem kerül indexelésre. Habár a keresőmotor talán indexelhet egy URL-t más oldalakon található hivatkozások alapján, anélkül, hogy látná a tartalmat, szeretnénk a jövőben kevésbé láthatóvá tenni az ilyen oldalakat.

5. Search Console URL-eltávolító eszköz: Ezzel az eszközzel gyorsan és egyszerűen távolíthatsz el átmenetileg egy URL-t a Google keresőtalálatai közül.

Az új szabvány

Egy nappal korábban, július 1-én a Google azt is bejelentette, hogy szabványosítani fogják a robots kizárási protokollt. A technikai magyarázat eredeti formájában itt található.

De miért?

A Google már évek óta szerette volna szabványosítani a protokollt egy gördülékenyebb jövőkép reményében, és úgy tűnik, most végre rászánta magát a változtatásokra. Gary Illyes egy tweetben elmagyarázta, hogy miért érzi hasznosnak ezt a lépést a webmesterek részéről:

„Ahogy azt néhány hete ígértem, lefuttattam egy analízist a noindexről és a robotstx-ről. Nagyon sok webhely árt magának ezekkel. Őszintén úgy gondolom, hogy ez [a változtatás] jót fog tenni az ökoszisztémának és hogy azok, akik eddig jól csinálták, jobb megoldásokat találnak majd, amikkel ugyan ezt érhetik el.”

Szóval mi a teendő?

Amennyiben saját, vagy egy ügyfeled webhelyének robots.txt fájljában noindex utasítást használsz, gondoskodj róla, hogy szeptemberig térj át a fent említett megoldások valamelyikére, és távolítsd el az összes noindex utasítást a robots fájlból!