Wprowadzenie – mały plik, duże znaczenie
Każda strona internetowa, niezależnie od swojej wielkości, powinna być świadoma tego, jak komunikuje się z robotami indeksującymi, czyli tzw. crawlerami.
Dlaczego? To proste.
Plik robots.txt to pierwsze miejsce, do którego zagląda robot wyszukiwarki podczas odwiedzin witryny. To tam znajduje informacje o tym, które zasoby są dostępne do indeksowania, a które powinny zostać pominięte. Choć jego stosowanie jest opcjonalne, jego obecność — lub brak — może wpływać na to, jak strona jest widoczna w Google.
Czym jest plik robots.txt?
Plik robots.txt to zwykły plik tekstowy, który umieszcza się w katalogu głównym witryny internetowej. Opiera się na tzw. protokole wykluczania robotów (ang. Robots Exclusion Protocol) — standardzie, który pozwala właścicielom stron informować roboty indeksujące (np. Googlebot, Bingbot), do jakich zasobów powinny lub nie powinny mieć dostępu.
To nie kod źródłowy, nie narzędzie do kodowania – to
prosty plik, który zawiera komendy tekstowe zrozumiałe dla robotów. Dzięki niemu możemy np. zablokować dostęp do folderów administracyjnych, zabezpieczyć prywatne dane lub ograniczyć indeksację treści niskiej jakości.
Funkcje i zadania pliku robots.txt
Główne zadania pliku robots.txt obejmują:
Blokowanie dostępu do wybranych zasobów witryny – np. zaplecza CMS, folderów roboczych, tymczasowych plików.
Zarządzanie crawlowaniem – szczególnie istotne dla dużych serwisów, które mogą przekroczyć tzw. crawl budget (limit liczby stron odwiedzanych przez roboty).
Redukowanie duplikacji treści – poprzez blokadę wersji roboczych, filtrowanych list produktów lub niepotrzebnych parametrów URL.
Wskazywanie lokalizacji mapy witryny XML – komenda Sitemap: może pomóc Google szybciej zlokalizować najważniejsze podstrony.
💡
Co ważne: plik ten nie zabezpiecza przed dostępem użytkowników ani złośliwego ruchu. Jego funkcja ogranicza się do komunikacji z grzecznościowymi crawlerami, które respektują protokół. To informator, a nie ochroniarz.
Robots.txt a SEO – czyli jak wpływa na widoczność strony
W kontekście SEO, robots.txt ma ogromne znaczenie. Pośrednio kontroluje, co może zostać zaindeksowane w wyszukiwarce. Jednak trzeba od razu rozróżnić dwa pojęcia:
Crawlowanie – czyli przeszukiwanie strony przez roboty.
Indeksowanie – czyli dodanie strony do bazy Google i możliwość jej wyświetlenia w wynikach wyszukiwania.
Więcej o
indeksowaniu i crawlowaniu piszemy w osobnym artykule. Jeśli zablokujemy dostęp do danej strony w robots.txt, robot jej nie odwiedzi – ale może nadal ją zindeksować, jeśli prowadzą do niej linki z zewnętrznych źródeł. Efektem może być tzw. widoczny, ale niepobrany zasób, co skutkuje brakiem tytułu, opisu i podglądu strony w wynikach wyszukiwania.
To dlatego plik
robots.txt nie powinien być traktowany jako narzędzie do usuwania stron z indeksu – do tego służą meta tagi (np.
noindex) lub narzędzia typu Google Search Console.
Robots.txt a dane strukturalne (structured data)
Jeszcze jednym ważnym aspektem SEO są
dane strukturalne – czyli znaczniki schema.org, które informują Google o typie treści na stronie (np. produkt, artykuł, wydarzenie). Dane te służą do generowania tzw. wyników rozszerzonych (rich results).
Problem pojawia się wtedy, gdy strona z takimi danymi jest zablokowana w robots.txt. W takiej sytuacji Google nie może odczytać danych strukturalnych, a więc nie uwzględni ich w wynikach wyszukiwania – nawet jeśli są poprawnie wdrożone. To typowy błąd w większych sklepach internetowych i blogach, które blokują np. zasoby /wp-content/ lub /product/.
Co dalej? Druga część artykułu
W drugiej części artykułu przyjrzymy się praktycznej stronie zarządzania plikiem robots.txt: jak go stworzyć, gdzie go umieścić, jak wygląda poprawna składnia oraz jakie są najczęstsze błędy, które mogą negatywnie wpłynąć na SEO. Chcesz mieć pewność, że Twój plik robots.txt działa zgodnie z intencją? ➡️
Zapraszamy do lektury kolejnej części!