Перепутанные инструкции
Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:
Code
User-agent: /
Disallow: Yandex
Правильно писать вот так:
Code
User-agent: Yandex
Disallow: /
Указание нескольких каталогов в одной инструкции Disallow
Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.
Code
Disallow: /css/ /cgi-bin/ /images/
Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.
Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:
Code
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
Имя файла содержит заглавные буквы
Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt
Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent
Так неправильно:
Code
User-agent:
Disallow:
Так правильно:
Code
User-agent: *
Disallow:
Url в директиве Host
Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
Неправильно:
Code
User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/
Правильно:
Code
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки
Иногда хочется написать что-то вроде:
Code
User-agent: *
Disallow: file*.html
для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль
Комментарии на одной строке с инструкциями
По стандарту, такая запись вполне возможна:
Code
Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin
В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:
Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robors.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль
Code
USER-AGENT: GOOGLEBOT
DISALLOW:
Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.
Code
User-agent: googlebot
Disallow:
Перечисление всех файлов
Еще одной ошибкой является перечисление каждого файла в директории:
Code
User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Вместо этого можно просто закрыть от индексации директорию целиком:
Code
User-agent: *
Disallow: /AL/
Disallow: /Az/
Инструкции Allow не существует! [перевод устаревший]
Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетя.
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Отдельные роботы (например googlebot) понимают директиву Allow
Так неправильно:
Code
User-agent: Yandex
Disallow: /john/
Allow: /jane/
А вот так – правильно:
Code
User-agent: Yandex
Disallow: /john/
Disallow:
Использование дополнительных директив в секции *
Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».
Так неправильно:
Code
User-agent: *
Disallow: /css/
Host: www.example.com
А вот так – правильно:
User-agent: *
Disallow: /css/
User-agent: Yandex
Disallow: /css/
Host: www.example.com
Отсутствие инструкции Disallow
Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».
Так неправильно:
Code
User-agent: Yandex
Host: www.example.com
Так правильно:
User-agent: Yandex
Disallow:
Host: www.example.com
Отсутствие слешей при указании директории
Как в этом случае поступит робот?
Code
User-agent: Yandex
Disallow: john
По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:
Code
User-agent: Yandex
Disallow: /john/
Неправильный http-заголовок
Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.