Większość stron internetowych służy do promocji sprzedaży lub prezentowania firmy, zdarzenia lub konkretnych osób. Tworząc stronę w prawie każdym przypadku zależy nam na dotarciu do jak największej liczby osób.
Roboty indeksujące, które mają duży wpływ na pozycję naszej strony w wyszukiwarkach, nie zawsze działają w taki sposób jak byśmy chcieli. Najczęstszym niepożądaną akcją jest zbyt częste indeksowanie, co doprowadza do generowania dużego obciążenia serwera, z którego korzystamy. Roboty indeksują wszystkie elementy strony nawet te, które nie powinny być brane pod uwagę.
Poniżej podajemy reguły, które pomogą ograniczyć działanie robotów lub całkowicie wyłączyć ich działanie.
Reguły należy wprowadzać w pliku robots.txt, który znajduje się w głównym katalogu Twojej strony. Jeśli pliku nie ma, należy go utworzyć.
Wpis User–agent:* dotyczy wszystkich robotów indeksujących.
Jeśli chcesz wprowadzić organicznie dla konkretnego robota indeksującego, wpisz zamiast „*” Przykład dla Google bota.
User–agent:Googlebot
Zablokowanie konkretnej podstrony dla wszystkich robotów.
User–agent:*
Disallow:/strona.html
Zablokowanie podstron z konkretnym rozszerzeniem np. php
Użycie tej reguły spowoduje, że nie będą indeksowane pliki umieszczone w katalogu głównym z rozszerzeniem .php
User–agent:*
Disallow:/*.php$
Zablokowanie podstron z konkretną frazą np. admin
User–agent:*
Disallow:/*admin*/
Zmiana częstotliwości indeksowania
Opóźnienie jakie możesz podać w regule musi mieścić się w przedziale 500-0,5 sekundy.
User–agent:Bingbot
Allow: /
Crawl-delay: 10
Lista katalogów, które nie powinny być indeksowane w przypadku WordPressa
User–agent:*
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes
Całkowite zablokowanie konkretnego robota indeksującego
User–agent:Yandexbot
Disallow: /
Najpopularniejsze roboty indeksujące
- Bingbot
- Googlebot
- Googlebot-Image
- Googlebot-News
- Teoma
- Baiduspider
- Yahoo!
- msnbot
- YandexBot