
Пoкoпaвшись в рaзныx блoгax, сoстaвил свoй robots.txt ради WordPress, в кoтoрoм учитывaл нeскoлькo стaтeй.
Пeрвым идёт индeксaция Яндeкс Блoгoв - тaм мы ничeгo нe зaпрeщaeм .
Втoрoй пункт – oтдeльнo Яндeкс, т.к. ради нeгo нужнo писaть спeциaльнoe oбрaщeниe.
Третий пункут – от мала до велика остальные поисковые системы.
User-agent: YandexBlog
Disallow:User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yoursite.ruUser-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=Sitemap: http://yoursite.ru/sitemap.xml
Пока что оставим так, быть может, с помощью ваших замечаний он будет исправлен.
Сейчас теория
Файл robots.txt – обычный текстовый файл, который лежит в корневом каталоге и нужен ради того,
чтобы ограничить индексацию некоторых страниц вашего сайта.
Управляющиx директив файла robots.txt чуть-чуть –
User-agent: – задает имя конкретного робота. Или «*» – от мала до велика
Disallow: – то, что запрещено смотреть указанному роботу
# – правее сего символа находиться комментарий.
Понять синтаксис и как он работает – несложно. Разберём несколько примеров.
пример 1
User-agent: * # – все работы
Disallow: /mystery # – запрещаем доступ ко всем директориям, коие содежатв себе /mystery. Тоесть /mystery.html – нельзя индексировать, /mystery/index.html – невозможно индексировать
пример 2
User-agent: * # – все работы
Disallow: /mystery/ # – запрещаем доступ ко всем директориям, коие содежат в себе /mystery/. Тоесть /mystery.html – можно индексировать, /mystery/index.html – невозможно индексировать
пример 3
User-agent: *
Disallow: /mystery – см.пример 2
Disallow: /fin/ – запрещаем доступ ко всем директориям, коие содежат в себе /fin/. Как в примере 2User-agent: Evil_Bot # условие лишь для робота «Evil_Bot»
Disallow: / # запрещает доступ ко всем страницам и директориям сайтаUser-agent: Good_Bot # фактор только для робота «Good_Bot»
Disallow: # позволяет доступ ко всем страницам и директориям сайтаСпецсимвол ‘$’.
По умолчанию, ежели мы пишем Disallow: /mystery, то на конце подразумевается вензель всех значений «*».
Чтобы оборвать его, используется вензель ‘$’
пример 4
User-agent: Yandex # – только для робота Yandex
Disallow: /mystery$ # запрещает ‘/mystery’,
# однако не запрещает ‘/mystery.html’
Также для ограничения индексации применяется МЕТА-тег “Robots”.
МЕТА-тег “Robots” , который пишеться в глубине HEAD, и позволяет создателям страниц указывать Роботам, можно ли индексировать эту страницу и можно ли использовать ссылки, приведенные на странице. Нынешний тег указывается на каждой конкретной странице, доступ к которой необходимо ограничить.
например
META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»
META-тег “Robots” включает указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, возможно ли робот индексировать страницу. Директива FOLLOW указывает роботу, возможно ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех без исключения директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.
Прототип:
Случайные записи
Разместить у себя на ресурсе или в ЖЖ:
На любом форуме в своем сообщении:

