Jednym z narzędzi do zarządzania indeksowaniem witryn przez wyszukiwarki jest plik robots.txt. Służy głównie do uniemożliwienia wszystkim lub tylko niektórym robotom pobierania treści z określonych grup stron. Pozwala to pozbyć się „śmieci” w wynikach wyszukiwania, a w niektórych przypadkach znacznie poprawić ranking zasobu. Aby aplikacja była skuteczna, ważne jest posiadanie prawidłowego pliku robots.txt.
Niezbędny
Edytor tekstu
Instrukcje
Krok 1
Zrób listę robotów, dla których zostaną ustawione specjalne reguły wykluczeń lub będą stosowane dyrektywy rozszerzonego standardu robots.txt, a także dyrektywy niestandardowe i specyficzne (rozszerzenia konkretnej wyszukiwarki). Wpisz do tej listy wartości pól User-Agent nagłówków żądań HTTP wysyłanych przez wybrane roboty do serwera witryny. Nazwy robotów można również znaleźć w sekcjach referencyjnych witryn wyszukiwarek.
Krok 2
Wybierz grupy adresów URL zasobów witryny, do których dostęp ma być zabroniony każdemu z robotów z listy sporządzonej w pierwszym kroku. Wykonaj tę samą operację dla wszystkich innych robotów (nieskończony zestaw robotów indeksujących). Innymi słowy, wynikiem powinno być kilka list zawierających linki do sekcji witryny, grup stron lub źródeł treści multimedialnych, których indeksowanie jest zabronione. Każda lista musi odpowiadać innemu robotowi. Powinna też istnieć lista zabronionych adresów URL dla wszystkich innych botów. Twórz listy na podstawie porównania struktury logicznej witryny z fizyczną lokalizacją danych na serwerze, a także grupując adresy URL stron według ich cechy funkcjonalne. Na przykład na listach odrzuconych można uwzględnić zawartość dowolnych katalogów usług (pogrupowanych według lokalizacji) lub wszystkie strony profilu użytkownika (pogrupowane według celu).
Krok 3
Wybierz znaki URL dla każdego z zasobów zawartych na listach skompilowanych w drugim kroku. Przetwarzając listy wykluczeń dla robotów korzystających tylko ze standardowych dyrektyw w pliku robots.txt i niezdefiniowanych robotów, podświetl unikalne fragmenty adresów URL o maksymalnej długości. Dla pozostałych zestawów adresów możesz tworzyć szablony zgodnie ze specyfikacją konkretnych wyszukiwarek.
Krok 4
Utwórz plik robots.txt. Dodaj do niego grupy dyrektyw, z których każda odpowiada zestawowi reguł zakazujących dla konkretnego robota, których lista została skompilowana w pierwszym kroku. Po tym ostatnim powinna nastąpić grupa dyrektyw dla wszystkich innych robotów. Oddziel grupy reguł pojedynczym pustym wierszem. Każdy zestaw reguł musi zaczynać się od dyrektywy User-agent identyfikującej robota, po której następuje dyrektywa Disallow, która zabrania indeksowania grup adresów URL. Uzupełnij wiersze uzyskane w kroku trzecim z wartościami dyrektyw Disallow. Oddziel dyrektywy i ich znaczenie dwukropkiem. Rozważmy następujący przykład: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Ten zestaw dyrektyw instruuje głównego robota Wyszukiwarka Yandex nie indeksuje adresu URL, który zawiera podciąg / temp / data / obrazy /. Uniemożliwia również wszystkim innym robotom indeksowanie adresów URL zawierających /temp/data/.
Krok 5
Uzupełnij plik robots.txt o rozszerzone dyrektywy standardowe lub szczegółowe dyrektywy wyszukiwarki. Przykładami takich dyrektyw są: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.