Robots.txt — ustawienia indeksowania

robots.txt

Jak pokazuje praktyka, techniczna podstawa SEO, czyli plik robots.txt, jest przez wielu webmasterów nie tylko wypełniany nieprawidłowo, ale także bez zrozumienia, dlaczego ten plik jest potrzebny i jak działa. Obiektywnie rzecz biorąc, jest mnóstwo artykułów na ten temat, jednak warto umieścić pewne akcenty.

Co to jest plik robots i dlaczego w ogóle jest potrzebny?

W sieci można znaleźć mnóstwo głupich poradników, jak skonfigurować Robots.txt. Ludzie doradzają, aby zarządzać ograniczeniami dostępu, oferują niektóre standardowe szablony z instrukcjami, próbują usunąć coś z indeksu.

Plik robots txt ma jeden cel — kontrolować indeksowanie strony w oparciu o „Standardy wyjątków Robots”. Nie jest to narzędzie do kontrolowania indeksowania, a jeśli spróbujesz użyć go do kontrolowania, w jaki sposób twoje strony trafiają do indeksu, nieuchronnie pojawią się błędy i problemy. A im większa i bardziej złożona jest Twoja strona, tym więcej błędów otrzymasz. Użyj dedykowanych narzędzi do kontroli indeksowania:

  • meta tag robots;
  • adresy kanoniczne;
  • przekierowania;
  • linki.

Można go użyć, aby powiedzieć robotom indeksującym wyszukiwarki, które adresy URL nie powinny być indeksowane, a które mogą i powinny być indeksowane. Nie są to polecenia: roboty indeksujące wyszukiwarek mogą ignorować zarówno dyrektywy zabronione, jak i dozwolone, jeśli otrzymają silniejsze sygnały, by to zrobić. Prosty przykład: jeśli do jakiejś strony prowadzi wystarczająco dużo linków, to pojawi się ona w wyszukiwarce — nawet jeśli sama strona nie będzie przez nią indeksowana.

Co nie musi być skanowane?

  • Foldery systemowe na serwerze;
  • Duplikaty: sortowanie, tagi UTM, filtry i inne adresy URL z parametrami;
  • Strony sesji użytkownika, wyniki wyszukiwania, dynamiczne adresy URL;
  • Adresy URL usług;
  • Strony administracyjne serwisu.

Co musi być koniecznie dostępne?

  • Strony startowe
  • Pliki odpowiedzialne za renderowanie strony (js, css, czcionki, grafika)

Szczególną uwagę należy zwrócić na obowiązkowe uprawnienia do skanowania JS i CSS. Jeśli wyszukiwarki nie będą mogły renderować stron w takiej formie, w jakiej otrzymuje je ludzki odwiedzający, doprowadzi to do następujących problemów:

  • Wyszukiwarka może uznać, że strona nie jest dostosowana do urządzeń mobilnych.
  • Jeśli ważny fragment treści jest renderowany w JS, wyszukiwarka po prostu nie będzie miała do niego dostępu. W niektórych przypadkach zamiast treści, crawlery zobaczą zwykłą dziurę lub niewielki fragment treści. Taka strona raczej nie dostanie się do indeksu, a nawet jeśli, to nie uplasuje się wysoko. W obu przypadkach rezultatem będą obniżone pozycje w wyszukiwarkach lub brak pozycji w ogóle — nie chcesz śmieci w wyszukiwarkach.