Форум Diz-Cs.Ru
Преимущества регистрации:
Возможность создания тем
Общение с пользователями
Найдете множество полезной информации
Найдете своих единомышленников
DIZ-CS.RU - Мы с Вами НАВСЕГДА!
  • Страница 1 из 1
  • 1
Модератор форума: GlazAlmaz  
Активный форум » WEB-мастеру » SEO-услуги, пиар и раскрутка сайтов » Ошибки, встречающиеся в файле robots.txt (как надо)
Ошибки, встречающиеся в файле robots.txt
Дата: Чт, 20.05.2010, 07:47:28 | Сообщение # 1
Аватар не установлен
OFF
Пользователь
94 Сообщения:
2 Награды:
0 Отзывы:
Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:

Code
User-agent: /
     Disallow: Yandex

Правильно писать вот так:

Code
User-agent: Yandex
     Disallow: /

Указание нескольких каталогов в одной инструкции Disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

Code
Disallow: /css/ /cgi-bin/ /images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.

Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:

Code
Disallow: /css/
     Disallow: /cgi-bin/
     Disallow: /images/

Имя файла содержит заглавные буквы

Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt

Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent

Так неправильно:

Code
User-agent:
     Disallow:

Так правильно:

Code
User-agent: *
     Disallow:

Url в директиве Host

Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /

Неправильно:

Code
User-agent: Yandex
     Disallow: /cgi-bin
     Host: http://www.site.ru/

Правильно:

Code
User-agent: Yandex
     Disallow: /cgi-bin
     Host: www.site.ru

Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:

Code
User-agent: *
     Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль
Комментарии на одной строке с инструкциями

По стандарту, такая запись вполне возможна:

Code
Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin

В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robors.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль

Code
USER-AGENT: GOOGLEBOT
     DISALLOW:

Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

Code
User-agent: googlebot
     Disallow:

Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:

Code
User-agent: *
     Disallow: /AL/Alabama.html
     Disallow: /AL/AR.html
     Disallow: /Az/AZ.html
     Disallow: /Az/bali.html
     Disallow: /Az/bed-breakfast.html

Вместо этого можно просто закрыть от индексации директорию целиком:

Code
User-agent: *
     Disallow: /AL/
     Disallow: /Az/

Инструкции Allow не существует! [перевод устаревший]

Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетя.

Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Отдельные роботы (например googlebot) понимают директиву Allow

Так неправильно:

Code
User-agent: Yandex
     Disallow: /john/
     Allow: /jane/

А вот так – правильно:

Code
User-agent: Yandex
     Disallow: /john/
     Disallow:

Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».

Так неправильно:

Code
User-agent: *
     Disallow: /css/
     Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com


Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».

Так неправильно:

Code
User-agent: Yandex
     Host: www.example.com

Так правильно:

User-agent: Yandex
Disallow:
Host: www.example.com

Отсутствие слешей при указании директории

Как в этом случае поступит робот?

Code
User-agent: Yandex
     Disallow: john

По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:

Code
User-agent: Yandex
     Disallow: /john/

Неправильный http-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

Дата: Чт, 20.05.2010, 10:25:58 | Сообщение # 2
Аватар не установлен
OFF
Пользователь
94 Сообщения:
2 Награды:
0 Отзывы:
Оптим, поправь HOST у тебя стоит www.sait.ru
а надо www.japan-food.ucoz.ru/
для тебя самый оптимальный вариант
Code
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /search/
Disallow: /cgi-bin/
Disallow: /john/
Disallow: /css/
Host: www.japan-food.ucoz.ru/
Sitemap: http://japan-food.ucoz.ru/sitemap.xml
Sitemap: http://japan-food.ucoz.ru/sitemap-shop.xml

все остальное лишнее
и еще я на своих сайтах оставляю search открытым к индексу, считаю их полезными для ботов, но здесь решать вам это не так важно у кого то может быть и другое мнение, но search бывает проскакивает в выдачи ПРОВЕРЕНО

Добавлено (20.05.2010, 10:24:26)
---------------------------------------------

Quote (|hAcK|)
webM, а яндекса скопировал

НЕТ НЕ С ЯНДЕКСА

Добавлено (20.05.2010, 10:25:58)
---------------------------------------------
Оптим, скорей всего именно из за неправильного HOSTа ваш сайт и перестал посещать яндекс

Дата: Чт, 20.05.2010, 10:27:20 | Сообщение # 3
Аватар не установлен
OFF
Пользователь
49 Сообщения:
3 Награды:
0 Отзывы:
webM,
Code
и еще я на своих сайтах оставляю search открытым к индексу

- т.е. перед search убрать / ???
Дата: Чт, 20.05.2010, 10:28:45 | Сообщение # 4
Аватар не установлен
OFF
Пользователь
94 Сообщения:
2 Награды:
0 Отзывы:
Оптим, если хочиш открыть к индексу просто убери строку Disallow: /search/
Дата: Чт, 20.05.2010, 10:36:20 | Сообщение # 5
Аватар не установлен
OFF
Пользователь
49 Сообщения:
3 Награды:
0 Отзывы:
webM,
Code
если хочиш открыть к индексу просто убери строку Disallow: /search/

- все, совсем стер эту строчку с robots.txt

Посмотрите пожалуйста еще раз мой robots.txt и скажите, что еще можно убрать или открыть!? Можно перед всеми строчками убрать / ???

Дата: Чт, 20.05.2010, 11:42:35 | Сообщение # 6
Аватар не установлен
OFF
Пользователь
55 Сообщения:
2 Награды:
0 Отзывы:
ICQ пользователя:
Сайт пользователя:
оо, а вы незаете разьве что страницы с поиском тоже должны быть заблокированы для индекса? хех

- Делай внутренюю оптимизацию сайта
- Примеры, не дорого
Дата: Чт, 20.05.2010, 11:45:38 | Сообщение # 7
Аватар не установлен
OFF
Пользователь
49 Сообщения:
3 Награды:
0 Отзывы:
Minato93,
Code
оо, а вы незаете разьве что страницы с поиском тоже должны быть заблокированы для индекса? хех

- у самого то robots.txt составлен не правильно! У вас в robots.txt составлено только введение, а где роботы для поисковых систем... уаххахаха biggrin
Дата: Чт, 20.05.2010, 12:01:28 | Сообщение # 8
Аватар не установлен
OFF
Пользователь
94 Сообщения:
2 Награды:
0 Отзывы:
Оптим, теперь норм , если захочиш обратно закрыть /search/ ,ставь Disallow: /search/ ,
Minato93, в вашем сообщении ничего не понятно,что вы имели ввиду?
Дата: Чт, 20.05.2010, 12:17:40 | Сообщение # 9
Аватар не установлен
OFF
Пользователь
49 Сообщения:
3 Награды:
0 Отзывы:
webM,
Code
в вашем сообщении ничего не понятно,что вы имели ввиду?

- не обращайте на Minato93, внимание - он круглые сутки немного не в себе!

Добавлено (20.05.2010, 12:17:40)
---------------------------------------------
webM, а что в robots.txt обозначают следующие строки:

Code
Disallow: /cgi-bin/
Disallow: /john/

можно ли их удалить или просто перед строкой снять / ???
Дата: Чт, 20.05.2010, 12:25:03 | Сообщение # 10
Аватар не установлен
OFF
Пользователь
94 Сообщения:
2 Награды:
0 Отзывы:
Оптим, это страницы вашего сайта запрещенные к индексу,что на них я не знаю,и решать не мне стоит их индексировать или нет, но я пробовал зайти на них ,таких страниц не существует, так что уберай просто это лишнее
Дата: Чт, 20.05.2010, 12:35:25 | Сообщение # 11
Аватар не установлен
OFF
Пользователь
49 Сообщения:
3 Награды:
0 Отзывы:
webM,
Code
это страницы вашего сайта запрещенные к индексу,что на них я не знаю,и решать не мне стоит их индексировать или нет, но я пробовал зайти на них ,таких страниц не существует, так что уберай просто это лишнее

- спасибо! Вот конечный результат - http://japan-food.ucoz.ru/robots.txt
P.S. Мне вот, что интересно и удвительно еще то, что позачера буквально Яндекс робот проиндексровал на сайт 2000 страниц с лишним, а с вчерашнего сайта 0 sad Проверил сайт за БАН в Яндексе - блокировки нет!
Дата: Чт, 20.05.2010, 18:30:47 | Сообщение # 12
Аватар не установлен
OFF
Пользователь
94 Сообщения:
2 Награды:
0 Отзывы:
Оптим,
Quote (Оптим)
P.S. Мне вот, что интересно и удвительно еще то, что позачера буквально Яндекс робот проиндексровал на сайт 2000 страниц с лишним, а с вчерашнего сайта 0 sad Проверил сайт за БАН в Яндексе - блокировки нет!

не ты первый не ты последний, выдача 18 числа была такая, яндекс тупанул чета но паниковать не стоит, ты не первый кстати кто интерисуется на счет этого , у меня у самого один сайт вылет всех страниц из индекса,было 6000 в поиске после 18 числа по нулям
Активный форум » WEB-мастеру » SEO-услуги, пиар и раскрутка сайтов » Ошибки, встречающиеся в файле robots.txt (как надо)
  • Страница 1 из 1
  • 1
Поиск: