Nem támogatja szeptembertől a Google a noindex utasítást a robots.txt fájlban
Mi az a robots.txt?
A robots.txt lényegében egy sima, mezei szövegfájl, ami különféle parancsokat, utasításokat, szabályokat tartalmaz a különféle internetes robotok számára. A robotok feladata feltérképezni az internetet (webhelyeket és azok weboldalait), lehetővé téve ezzel az online tartalmak indexelését.
A robots.txt fájl az első dolog, amit egy robot megvizsgál az adott webhellyel kapcsolatban. A robot „elolvassa” és értelmezi a fájl tartalmát, és figyelembe veszi az abban megfogalmazott szabályokat, például hogy mely oldalakat tilos indexelnie a webhelyen – ezt hívják noindex parancsnak.
Ebben a cikkben többet is megtudhatsz a robot.txt fájlról.
Mit jelentett be a Google?
A már emlegetett blogbejegyzésben a Google a következővel magyarázta döntését:
„Egy egészséges ökoszisztéma megőrzése érdekében, és hogy felkészülhessünk a jövendőbeli lehetséges nyílt forráskódú kiadásokra, 2019 szeptember 1-től figyelmen kívül hagyunk minden olyan kódot, ami nem támogatott és nem publikált szabályokat (pl. a noindexet) használ. Azoknak, akik a noindex indexelési utasítást használták a robot.txt fájlban, amely a feltérképezést szabályozza, itt van néhány alternatív megoldás:”
A Google a következő alternatívákat javasolja:
1. Noindex a robots meta címkékben: A HTTP válaszfejlécekben (response header) és a HTML-ben is támogatott noindex utasítás a leghatékonyabb megoldás, ha szeretnél bizonyos URL-eket kizárni az indexből (amennyiben a feltérképezés engedélyezett).
2. 404 és 410 HTTP állapotkódok: Mindkét állapotkód azt jelenti, hogy az oldal nem létezik, az ilyen URL-eket pedig a Google eltávolítja az indexéből, miután feltérképezte és feldolgozta őket.
3. Jelszavas védelem: Hacsak nincs megjelölve feliratkozáshoz, vagy fizetéshez kötött tartalomként, egy bejelentkezés mögé rejtett oldal általában törlődik majd a Google indexéből.
4. Feltérképezés tiltása a robots.txt-ben: A keresőmotorok csak az olyan oldalakat képesek feltérképezni, amikről tudnak is, ezért ha megtiltod egy oldal feltérképezését, akkor annak tartalma gyakran nem kerül indexelésre. Habár a keresőmotor talán indexelhet egy URL-t más oldalakon található hivatkozások alapján, anélkül, hogy látná a tartalmat, szeretnénk a jövőben kevésbé láthatóvá tenni az ilyen oldalakat.
5. Search Console URL-eltávolító eszköz: Ezzel az eszközzel gyorsan és egyszerűen távolíthatsz el átmenetileg egy URL-t a Google keresőtalálatai közül.
Az új szabvány
Egy nappal korábban, július 1-én a Google azt is bejelentette, hogy szabványosítani fogják a robots kizárási protokollt. A technikai magyarázat eredeti formájában itt található.
De miért?
A Google már évek óta szerette volna szabványosítani a protokollt egy gördülékenyebb jövőkép reményében, és úgy tűnik, most végre rászánta magát a változtatásokra. Gary Illyes egy tweetben elmagyarázta, hogy miért érzi hasznosnak ezt a lépést a webmesterek részéről:
„Ahogy azt néhány hete ígértem, lefuttattam egy analízist a noindexről és a robotstx-ről. Nagyon sok webhely árt magának ezekkel. Őszintén úgy gondolom, hogy ez [a változtatás] jót fog tenni az ökoszisztémának és hogy azok, akik eddig jól csinálták, jobb megoldásokat találnak majd, amikkel ugyan ezt érhetik el.”
Szóval mi a teendő?
Amennyiben saját, vagy egy ügyfeled webhelyének robots.txt fájljában noindex utasítást használsz, gondoskodj róla, hogy szeptemberig térj át a fent említett megoldások valamelyikére, és távolítsd el az összes noindex utasítást a robots fájlból!