Infrastruktura drogowa, sieciowa a nawet budynki wymagają odpowiednich oznaczeń – czegoś na wzór znaków na drodze. W ten sposób ich użytkownicy wiedzą, w jaki sposób się poruszać oraz jak znaleźć poszukiwane przez nich miejsce, bądź z niego powrócić. Takim znakiem drogowym dla robotów wyszukiwarek jest właśnie plik robots.txt, dzięki czemu roboty kierowane są w obszary naszej witryny, które chcemy, aby zobaczyły, a te niepożądane jesteśmy w stanie zablokować.
1 Roboty wyszukiwarek – czym są?
Zacznijmy od tego, czym w ogóle są roboty wyszukiwarek. Boty, robaki, pełzacze, automaty są to programy, które zbierają informacje o strukturze, stronach i treściach, które znajdują się w internecie. Robot, aby wyszukać nowe materiały w sieci, podąża za linkami, a następnie indeksuje zawartość całych stron internetowych do katalogów wyszukiwarek. Po analizie strony internetowej, bot umieszcza stronę www na pozycji w wynikach wyszukiwania.
2 Robots Exclusion Protocol – co warto o nim wiedzieć?
Istnieje
protokół, który mówi robotom wyszukiwarek o tym, czego nie mogą robić
na danej stronie internetowej. Jest to Robots Exclusion Protocol i
posiada dwa elementy, które kierują botami – plik robots.txt oraz
znaczniki meta.
3 Czym jest plik robots.txt?
Plik robots.txt, pomimo że jest plikiem tekstowym o prostej budowie, w bardzo dużym stopniu wpływa na to, jak roboty wyszukiwarek postrzegają Twoją stronę internetową. We wstępie napisaliśmy, że plikiem robots.txt jesteś w stanie zablokować robotom dostęp do miejsc na swojej stronie. Nie jest to do końca zgodne z prawdą, owszem roboty znanych wyszukiwarek będą przestrzegać tego, co zawarłeś w pliku robots.txt – jest to jednak jedynie wskazówka, a nie wymuszenie, ponieważ inne roboty np. spamerów czy oszustów Twoje zasady mogą ignorować. Warto je blokować już z poziomu serwera lub też w pliku .htaccess.
Plik robots.txt w prosty sposób stworzysz nawet w windowsowym Notatniku.
Aby sprawdzić czy Twoja strona posiada plik robots.txt wystarczy, że po wpisaniu jej adresu w pasek przeglądarki dodasz „/robots.txt”.
4 Dobry plik robots.txt, czyli jaki?
Kiedyś
dobry plik robots.txt nakazywał pełzać robotom jedynie po stronach
.html. To się jednak zmieniło, gdyż wyszukiwarka Google indeksuje cały
wygląd strony, zatem robot powinien mieć do tego wgląd. Najprościej
mówiąc, robotowi wyszukiwarki powinno się wyświetlać tyle, ile się
wyświetla użytkownikom internetu.
Ruchem robotów kierujesz za pomocą kilku poleceń. Polecenia
dla poszczególnych robotów rozpoczyna się od polecenia „User-agent:”,
po czym podaje się nazwę robota sieciowego, inną możliwością jest
wpisanie „*” gwiazdki, co oznacza, że późniejsze polecenia będą dotyczyć
wszystkich botów.
5 Polecenia, które można zastosować to m.in.:
• Disallow – polecenie zabraniające indeksowania wskazanych zasobów Twojej strony:
np. Disallow: /directory/ (lub inny dowolny folder)
Disallow: /directory/przykład.html (lub inny dowolny plik).
• Allow – pozwala na indeksację konkretnych plików, folderów czy całego serwisu.
Istotnym jest, aby odstępy pomiędzy poleceniami w pliku były prawidłowe. Stworzony robots.txt najpierw zapisz na dysku komputera, aby później umieścić go w głównym katalogu Twojej domeny. Pamiętaj, że roboty odnajdą plik robots.txt jedynie wtedy, kiedy będzie on umieszczony prawidłowo, pod odpowiednim adresem URL, czyli www.twojadomena.pl/robots.txt.
6 Robots.txt – popełniane błędy
Blokowanie ważnych stron lub całego serwisu w robots.txt powoduje, że Twoja strona może odnieść bardzo duże spadki w wynikach wyszukiwania. Dlatego też warto skorzystać z narzędzi Google dla Webmasterów i Testera pliku robots.txt.
Najczęstszym błędem jest jednak brak samego pliku robots.txt, oczywiście bez niego roboty stwierdzą, że można indeksować całą stronę, ale warto posiadać nawet plik domyślny. Głównym powodem jest to, że większość robotów, przynajmniej tych pochodzących od poważnych wyszukiwarek, w pierwszej kolejności pyta stronę o posiadanie pliku robots.txt, a jeśli go nie znajduje dostaje komunikat 404, co zwiększa transfer oraz stwarza błędy w statystykach. Oprócz tego plik robots.txt jest istotnym elementem, wpływającym na pozycję strony w wyszukiwarce.
Pamiętaj, że pomimo polecenia „Disallow” roboty nadal mogą indeksować zablokowane adresy URL bez ich zawartości, przez co będą one i tak wyświetlane w wynikach wyszukiwania. Dodatkowo, poprzez to polecenie blokujesz linki przychodzące i możliwość przekazania wartości danego linku (jeśli takowe znajdują się na danej podstronie).
Robots.txt to plik istotny przy pozycjonowaniu Twojej strony internetowej. Stworzenie domyślnego pliku nie jest trudne, jednak jeśli pomyślisz o jego optymalizacji w sposób profesjonalny, zadanie to może okazać się już bardziej poważne, gdyż wymaga odpowiedniej wiedzy i doświadczenia. W tej kwestii warto zaufać profesjonalistom.
Mamy nadzieję, że w powyższym artykule dowiedziałeś się istotnych informacji na temat pliku robots.txt, które pomogą Ci w optymalizacji Twojej strony internetowej.
Polecane dla Ciebie
Po co mieć stronę internetową skoro mam social media?
Działania w social mediach są potrzebne i przynoszą pozytywne efekty jednak ograniczając się do nich możemy znacząco ograniczać nasz zasięg działania i pozyskiwanie nowych klientów. Potrzeba wielu punktów styku klienta z marką, aby zachęcić go do działania.
Kreator stron. Czy polecam go małym firmom?
Dobry kreator stron rozwiązuje wiele problemów, związanych z tworzeniem strony internetowej. Pozwala uniknąć szukania specjalisty i niemal natychmiast mieć gotową stronę www.
Jak dodać wpis w WordPressie – instrukcja krok po kroku
Publikacja wpisów za pośrednictwem WordPressa trwa chwilę, pod warunkiem, że znasz podstawy obsługi tego panelu. Jeśli dopiero rozpoczynasz przygodę z […]
Szukasz dalej?