Infrastruktura drogowa, sieciowa a nawet budynki wymagają odpowiednich oznaczeń – czegoś na wzór znaków na drodze. W ten sposób ich użytkownicy wiedzą, w jaki sposób się poruszać oraz jak znaleźć poszukiwane przez nich miejsce, bądź z niego powrócić. Takim znakiem drogowym dla robotów wyszukiwarek jest właśnie plik robots.txtRobots.txt to plik tekstowy umieszczany na serwerze witryny internetowej, który zawiera dyrektywy dla robotów internetowych (takich jak Googlebot), informujące je, które części witryny powinny być przeglądane lub ignorowane. Jest to standardowy sposób komunikacji między właścicielami witryn a robotami internetowymi w celu kontrolowania indeksacji treści przez wyszukiwarki internetowe. W pliku robots.txt można wyróżnić różne instrukcje dotyczące zachowania robotów internetowych, takie jak: Disallow: Określa, które katalogi lub pliki powinny być ignorowane przez...Czym jest Robots.txt?, dzięki czemu roboty kierowane są w obszary naszej witryny, które chcemy, aby zobaczyły, a te niepożądane jesteśmy w stanie zablokować.

1 Roboty wyszukiwarek – czym są?

Zacznijmy od tego, czym w ogóle są roboty wyszukiwarek. Boty, robaki, pełzacze, automaty są to programy, które zbierają informacje o strukturze, stronach i treściach, które znajdują się w internecie. Robot, aby wyszukać nowe materiały w sieci, podąża za linkami, a następnie indeksuje zawartość całych stron internetowych do katalogów wyszukiwarek. Po analizie strony internetowej, bot umieszcza stronę www na pozycji w wynikach wyszukiwania.

2 Robots Exclusion Protocol – co warto o nim wiedzieć?

Istnieje
protokół, który mówi robotom wyszukiwarek o tym, czego nie mogą robić
na danej stronie internetowej. Jest to Robots Exclusion Protocol i
posiada dwa elementy, które kierują botami – plik robots.txt oraz
znaczniki meta.

3 Czym jest plik robots.txt?

Plik robots.txt, pomimo że jest plikiem tekstowym o prostej budowie, w bardzo dużym stopniu wpływa na to, jak roboty wyszukiwarek postrzegają Twoją stronę internetową. We wstępie napisaliśmy, że plikiem robots.txt jesteś w stanie zablokować robotom dostęp do miejsc na swojej stronie. Nie jest to do końca zgodne z prawdą, owszem roboty znanych wyszukiwarek będą przestrzegać tego, co zawarłeś w pliku robots.txt – jest to jednak jedynie wskazówka, a nie wymuszenie, ponieważ inne roboty np. spamerów czy oszustów Twoje zasady mogą ignorować. Warto je blokować już z poziomu serwera lub też w pliku .htaccessPlik .htaccess znany również jako 'Hypertext Access', jest konfiguracyjnym plikiem dla serwerów opartych na Apache. Pozwala on na zarządzanie ustawieniami serwera na poziomie katalogu, bez potrzeby bezpośredniego dostępu do głównego pliku konfiguracyjnego Apache. Nazwa pliku zaczyna się od kropki, co w systemach Unix/Linux oznacza plik ukryty. Plik .htaccess zawiera dyrektywy konfiguracyjne, które regulują różne aspekty działania serwera, takie jak przekierowania, autoryzacja dostępu, kontrola błędów, cache'owanie i reguły przepisywania adresów URL...Czym jest Htaccess?.
Plik robots.txt w prosty sposób stworzysz nawet w windowsowym Notatniku.
Aby sprawdzić czy Twoja strona posiada plik robots.txt wystarczy, że po wpisaniu jej adresu w pasek przeglądarki dodasz „/robots.txt”.

4 Dobry plik robots.txt, czyli jaki?

Kiedyś
dobry plik robots.txt nakazywał pełzać robotom jedynie po stronach
.html. To się jednak zmieniło, gdyż wyszukiwarka Google indeksuje cały
wygląd strony, zatem robot powinien mieć do tego wgląd. Najprościej
mówiąc, robotowi wyszukiwarki powinno się wyświetlać tyle, ile się
wyświetla użytkownikom internetu.
Ruchem robotów kierujesz za pomocą kilku poleceń. Polecenia
dla poszczególnych robotów rozpoczyna się od polecenia „User-agent:”,
po czym podaje się nazwę robota sieciowego, inną możliwością jest
wpisanie „*” gwiazdki, co oznacza, że późniejsze polecenia będą dotyczyć
wszystkich botów.

5 Polecenia, które można zastosować to m.in.:

• Disallow – polecenie zabraniające indeksowania wskazanych zasobów Twojej strony:
np. Disallow: /directory/ (lub inny dowolny folder)
Disallow: /directory/przykład.html (lub inny dowolny plik).
• Allow – pozwala na indeksację konkretnych plików, folderów czy całego serwisu.
Istotnym jest, aby odstępy pomiędzy poleceniami w pliku były prawidłowe. Stworzony robots.txt najpierw zapisz na dysku komputera, aby później umieścić go w głównym katalogu Twojej domeny. Pamiętaj, że roboty odnajdą plik robots.txt jedynie wtedy, kiedy będzie on umieszczony prawidłowo, pod odpowiednim adresem URLURL (Uniform Resource Locator) to standardowy format adresu internetowego, który pozwala na jednoznaczne określenie lokalizacji zasobu w sieci. Jest to kluczowy element, który umożliwia dostęp do stron internetowych, plików, obrazów i innych zasobów dostępnych online. URL jest powszechnie używany w przeglądarkach internetowych, aplikacjach i systemach zarządzania treścią. URL składa się z kilku elementów, które razem tworzą pełny adres. Najważniejsze z nich to: Protokół - Określa sposób komunikacji z serwerem. Najczęściej używanymi protokołami...Czym jest URL?, czyli www.twojadomena.pl/robots.txt.

6 Robots.txt – popełniane błędy

Blokowanie ważnych stron lub całego serwisu w robots.txt powoduje, że Twoja strona może odnieść bardzo duże spadki w wynikach wyszukiwania. Dlatego też warto skorzystać z narzędzi Google dla Webmasterów i Testera pliku robots.txt.
Najczęstszym błędem jest jednak brak samego pliku robots.txt, oczywiście bez niego roboty stwierdzą, że można indeksować całą stronę, ale warto posiadać nawet plik domyślny. Głównym powodem jest to, że większość robotów, przynajmniej tych pochodzących od poważnych wyszukiwarek, w pierwszej kolejności pyta stronę o posiadanie pliku robots.txt, a jeśli go nie znajduje dostaje komunikat 404, co zwiększa transfer oraz stwarza błędy w statystykach. Oprócz tego plik robots.txt jest istotnym elementem, wpływającym na pozycję strony w wyszukiwarce.
Pamiętaj, że pomimo polecenia „Disallow” roboty nadal mogą indeksować zablokowane adresy URL bez ich zawartości, przez co będą one i tak wyświetlane w wynikach wyszukiwania. Dodatkowo, poprzez to polecenie blokujesz linki przychodzące i możliwość przekazania wartości danego linku (jeśli takowe znajdują się na danej podstronie).

Robots.txt
to plik istotny przy pozycjonowaniu Twojej strony internetowej.
Stworzenie domyślnego pliku nie jest trudne, jednak jeśli pomyślisz o
jego optymalizacji w sposób profesjonalny, zadanie to może okazać się
już bardziej poważne, gdyż wymaga odpowiedniej wiedzy i doświadczenia. W
tej kwestii warto zaufać profesjonalistom.

Mamy nadzieję, że w powyższym artykule dowiedziałeś się istotnych informacji na temat pliku robots.txt, które pomogą Ci w optymalizacji Twojej strony internetowej.

Łukasz Bielawski

Zawsze chętny do pomocy. Od 10 lat zajmuje się marketingiem internetowym, z naciskiem na działania seo oraz kampanie w ekosystemie Google Ads. Prywatnie pasjonat motoryzacji.

Wszystko, co powinieneś wiedzieć o pliku robots.txt

1 Roboty wyszukiwarek – czym są?

2 Robots Exclusion Protocol – co warto o nim wiedzieć?

3 Czym jest plik robots.txt?

4 Dobry plik robots.txt, czyli jaki?

5 Polecenia, które można zastosować to m.in.:

6 Robots.txt – popełniane błędy

Dodaj komentarz

Polecane dla Ciebie

Szybkość strony. Jak docierać do większej liczby klientów?

Kreator stron _now vs. Wix

RODO a aplikacje: szyfrowanie, anominizacja…

Szukasz dalej?

POMOC

Wszystko, co powinieneś wiedzieć o pliku robots.txt

1 Roboty wyszukiwarek – czym są?

2 Robots Exclusion Protocol – co warto o nim wiedzieć?

3 Czym jest plik robots.txt?

4 Dobry plik robots.txt, czyli jaki?

5 Polecenia, które można zastosować to m.in.:

6 Robots.txt – popełniane błędy

Dodaj komentarz

Ciekawe?

Polecane dla Ciebie

Szybkość strony. Jak docierać do większej liczby klientów?

Kreator stron _now vs. Wix

RODO a aplikacje: szyfrowanie, anominizacja…

Szukasz dalej?