Infrastruktura drogowa, sieciowa a nawet budynki wymagają odpowiednich oznaczeń – czegoś na wzór znaków na drodze. W ten sposób ich użytkownicy wiedzą, w jaki sposób się poruszać oraz jak znaleźć poszukiwane przez nich miejsce, bądź z niego powrócić. Takim znakiem drogowym dla robotów wyszukiwarek jest właśnie plik robots.txtRobots.txt to plik tekstowy umieszczany na serwerze witryny internetowej, który zawiera dyrektywy dla robotów internetowych (takich jak Googlebot), informujące je, które części witryny powinny być przeglądane lub ignorowane. Jest to standardowy sposób komunikacji między właścicielami witryn a robotami internetowymi w celu kontrolowania indeksacji treści przez wyszukiwarki internetowe. W pliku robots.txt można wyróżnić różne instrukcje dotyczące zachowania robotów internetowych, takie jak: Disallow: Określa, które katalogi lub pliki powinny być ignorowane przez...Czym jest Robots.txt?, dzięki czemu roboty kierowane są w obszary naszej witryny, które chcemy, aby zobaczyły, a te niepożądane jesteśmy w stanie zablokować.

1 Roboty wyszukiwarek – czym są?

Zacznijmy od tego, czym w ogóle są roboty wyszukiwarek. Boty, robaki, pełzacze, automaty są to programy, które zbierają informacje o strukturze, stronach i treściach, które znajdują się w internecie. Robot, aby wyszukać nowe materiały w sieci, podąża za linkami, a następnie indeksuje zawartość całych stron internetowych do katalogów wyszukiwarek. Po analizie strony internetowej, bot umieszcza stronę www na pozycji w wynikach wyszukiwania.

2 Robots Exclusion Protocol – co warto o nim wiedzieć?

Istnieje protokół, który mówi robotom wyszukiwarek o tym, czego nie mogą robić na danej stronie internetowej. Jest to Robots Exclusion Protocol i posiada dwa elementy, które kierują botami – plik robots.txt oraz znaczniki meta.

3 Czym jest plik robots.txt?

Plik robots.txt, pomimo że jest plikiem tekstowym o prostej budowie, w bardzo dużym stopniu wpływa na to, jak roboty wyszukiwarek postrzegają Twoją stronę internetową. We wstępie napisaliśmy, że plikiem robots.txt jesteś w stanie zablokować robotom dostęp do miejsc na swojej stronie. Nie jest to do końca zgodne z prawdą, owszem roboty znanych wyszukiwarek będą przestrzegać tego, co zawarłeś w pliku robots.txt – jest to jednak jedynie wskazówka, a nie wymuszenie, ponieważ inne roboty np. spamerów czy oszustów Twoje zasady mogą ignorować. Warto je blokować już z poziomu serwera lub też w pliku .htaccessPlik .htaccess znany również jako 'Hypertext Access', jest konfiguracyjnym plikiem dla serwerów opartych na Apache. Pozwala on na zarządzanie ustawieniami serwera na poziomie katalogu, bez potrzeby bezpośredniego dostępu do głównego pliku konfiguracyjnego Apache. Nazwa pliku zaczyna się od kropki, co w systemach Unix/Linux oznacza plik ukryty. Plik .htaccess zawiera dyrektywy konfiguracyjne, które regulują różne aspekty działania serwera, takie jak przekierowania, autoryzacja dostępu, kontrola błędów, cache'owanie i reguły przepisywania adresów URL...Czym jest Htaccess?.
Plik robots.txt w prosty sposób stworzysz nawet w windowsowym Notatniku.
Aby sprawdzić czy Twoja strona posiada plik robots.txt wystarczy, że po wpisaniu jej adresu w pasek przeglądarki dodasz „/robots.txt”.

4 Dobry plik robots.txt, czyli jaki?

Kiedyś dobry plik robots.txt nakazywał pełzać robotom jedynie po stronach .html. To się jednak zmieniło, gdyż wyszukiwarka Google indeksuje cały wygląd strony, zatem robot powinien mieć do tego wgląd. Najprościej mówiąc, robotowi wyszukiwarki powinno się wyświetlać tyle, ile się wyświetla użytkownikom internetu.
Ruchem robotów kierujesz za pomocą kilku poleceń. Polecenia dla poszczególnych robotów rozpoczyna się od polecenia „User-agent:”, po czym podaje się nazwę robota sieciowego, inną możliwością jest wpisanie „*” gwiazdki, co oznacza, że późniejsze polecenia będą dotyczyć wszystkich botów.

5 Polecenia, które można zastosować to m.in.:


Disallow – polecenie zabraniające indeksowania wskazanych zasobów Twojej strony:
np. Disallow: /directory/ (lub inny dowolny folder)
Disallow: /directory/przykład.html (lub inny dowolny plik).
Allow – pozwala na indeksację konkretnych plików, folderów czy całego serwisu.
Istotnym jest, aby odstępy pomiędzy poleceniami w pliku były prawidłowe. Stworzony robots.txt najpierw zapisz na dysku komputera, aby później umieścić go w głównym katalogu Twojej domeny. Pamiętaj, że roboty odnajdą plik robots.txt jedynie wtedy, kiedy będzie on umieszczony prawidłowo, pod odpowiednim adresem URLURL (Uniform Resource Locator) to standardowy format adresu internetowego, który pozwala na jednoznaczne określenie lokalizacji zasobu w sieci. Jest to kluczowy element, który umożliwia dostęp do stron internetowych, plików, obrazów i innych zasobów dostępnych online. URL jest powszechnie używany w przeglądarkach internetowych, aplikacjach i systemach zarządzania treścią. URL składa się z kilku elementów, które razem tworzą pełny adres. Najważniejsze z nich to: Protokół - Określa sposób komunikacji z serwerem. Najczęściej używanymi protokołami...Czym jest URL?, czyli www.twojadomena.pl/robots.txt.

6 Robots.txt – popełniane błędy

Blokowanie ważnych stron lub całego serwisu w robots.txt powoduje, że Twoja strona może odnieść bardzo duże spadki w wynikach wyszukiwania. Dlatego też warto skorzystać z narzędzi Google dla Webmasterów i Testera pliku robots.txt.
Najczęstszym błędem jest jednak brak samego pliku robots.txt, oczywiście bez niego roboty stwierdzą, że można indeksować całą stronę, ale warto posiadać nawet plik domyślny. Głównym powodem jest to, że większość robotów, przynajmniej tych pochodzących od poważnych wyszukiwarek, w pierwszej kolejności pyta stronę o posiadanie pliku robots.txt, a jeśli go nie znajduje dostaje komunikat 404, co zwiększa transfer oraz stwarza błędy w statystykach. Oprócz tego plik robots.txt jest istotnym elementem, wpływającym na pozycję strony w wyszukiwarce.
Pamiętaj, że pomimo polecenia „Disallow” roboty nadal mogą indeksować zablokowane adresy URL bez ich zawartości, przez co będą one i tak wyświetlane w wynikach wyszukiwania. Dodatkowo, poprzez to polecenie blokujesz linki przychodzące i możliwość przekazania wartości danego linku (jeśli takowe znajdują się na danej podstronie).

Robots.txt to plik istotny przy pozycjonowaniu Twojej strony internetowej. Stworzenie domyślnego pliku nie jest trudne, jednak jeśli pomyślisz o jego optymalizacji w sposób profesjonalny, zadanie to może okazać się już bardziej poważne, gdyż wymaga odpowiedniej wiedzy i doświadczenia. W tej kwestii warto zaufać profesjonalistom.

Mamy nadzieję, że w powyższym artykule dowiedziałeś się istotnych informacji na temat pliku robots.txt, które pomogą Ci w optymalizacji Twojej strony internetowej.

Łukasz Bielawski
>
Łukasz Bielawski
Zawsze chętny do pomocy. Od 10 lat zajmuje się marketingiem internetowym, z naciskiem na działania seo oraz kampanie w ekosystemie Google Ads. Prywatnie pasjonat motoryzacji.

Dodaj komentarz

Twój adres e-mail nie będzie opublikowany.

Polecane dla Ciebie

Szukasz dalej?

Przeglądaj wg dat
  • Przeglądaj wg dat
  • luty 2025
  • styczeń 2025
  • grudzień 2024
  • listopad 2024
  • październik 2024
  • wrzesień 2024
  • sierpień 2024
  • lipiec 2024
  • czerwiec 2024
  • maj 2024
  • kwiecień 2024
  • marzec 2024
  • luty 2024
  • styczeń 2024
  • grudzień 2023
  • listopad 2023
  • październik 2023
  • wrzesień 2023
  • sierpień 2023
  • lipiec 2023
  • czerwiec 2023
  • maj 2023
  • kwiecień 2023
  • marzec 2023
  • luty 2023
  • styczeń 2023
  • grudzień 2022
  • listopad 2022
  • październik 2022
  • wrzesień 2022
  • sierpień 2022
  • lipiec 2022
  • czerwiec 2022
  • maj 2022
  • kwiecień 2022
  • marzec 2022
  • luty 2022
  • styczeń 2022
  • grudzień 2021
  • listopad 2021
  • październik 2021
  • wrzesień 2021
  • sierpień 2021
  • lipiec 2021
  • czerwiec 2021
  • maj 2021
  • kwiecień 2021
  • marzec 2021
  • luty 2021
  • styczeń 2021
  • grudzień 2020
  • listopad 2020
  • październik 2020
  • wrzesień 2020
  • sierpień 2020
  • lipiec 2020
  • czerwiec 2020
  • maj 2020
  • kwiecień 2020
  • marzec 2020
  • luty 2020
  • styczeń 2020
  • grudzień 2019
  • listopad 2019
  • październik 2019
  • wrzesień 2019
  • sierpień 2019
  • lipiec 2019
  • czerwiec 2019
  • maj 2019
  • kwiecień 2019
  • marzec 2019
  • styczeń 2019
  • grudzień 2018
  • listopad 2018
  • październik 2018
  • sierpień 2018
  • lipiec 2018
  • maj 2018
  • kwiecień 2018
  • marzec 2018
  • styczeń 2018
  • grudzień 2017
  • październik 2017
  • czerwiec 2017
  • kwiecień 2017
  • marzec 2017
  • luty 2017
  • styczeń 2017
  • grudzień 2016
  • listopad 2016
  • październik 2016
  • wrzesień 2016
  • sierpień 2016
  • lipiec 2016
  • czerwiec 2016
  • maj 2016
  • kwiecień 2016
  • marzec 2016
  • lipiec 2015
  • maj 2015
  • grudzień 2014
  • sierpień 2014
  • lipiec 2014
  • czerwiec 2014
  • kwiecień 2014