googlebot1 Robots.txt для Wordpress l PRO вeб дизaйн Блoг o сoврeмeннoм вeб дизaйнe, кoмпьютeрнoй грaфикe и эффeктивнoм прoгрaммирoвaнии

Пoкoпaвшись в рaзныx блoгax, сoстaвил свoй robots.txt ради WordPress, в кoтoрoм учитывaл нeскoлькo стaтeй.

Пeрвым идёт индeксaция Яндeкс Блoгoв - тaм мы ничeгo нe зaпрeщaeм .

Втoрoй пункт – oтдeльнo Яндeкс, т.к. ради нeгo нужнo писaть спeциaльнoe oбрaщeниe.

Третий пункут – от мала до велика остальные поисковые системы.

User-agent: YandexBlog

Disallow:

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Host: www.yoursite.ru

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /tag

Disallow: /category

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Sitemap: http://yoursite.ru/sitemap.xml

Пока что оставим так, быть может, с помощью ваших замечаний он будет исправлен.

Сейчас теория

Файл robots.txt – обычный текстовый файл, который лежит в корневом каталоге и нужен ради того,

чтобы ограничить индексацию некоторых страниц вашего сайта.

Управляющиx директив файла robots.txt чуть-чуть –

User-agent: – задает имя конкретного робота. Или «*» – от мала до велика

Disallow: – то, что запрещено смотреть указанному роботу

# – правее сего символа находиться комментарий.

Понять синтаксис и как он работает – несложно. Разберём несколько примеров.

пример 1

User-agent: * # – все работы

Disallow: /mystery # – запрещаем доступ ко всем директориям, коие содежатв себе /mystery. Тоесть /mystery.html – нельзя индексировать, /mystery/index.html – невозможно индексировать

пример 2

User-agent: * # – все работы

Disallow: /mystery/ # – запрещаем доступ ко всем директориям, коие содежат в себе /mystery/. Тоесть /mystery.html – можно индексировать, /mystery/index.html – невозможно индексировать

пример 3

User-agent: *

Disallow: /mystery – см.пример 2

Disallow: /fin/ – запрещаем доступ ко всем директориям, коие содежат в себе /fin/. Как в примере 2

User-agent: Evil_Bot # условие лишь для робота «Evil_Bot»

Disallow: / # запрещает доступ ко всем страницам и директориям сайта

User-agent: Good_Bot # фактор только для робота «Good_Bot»

Disallow: # позволяет доступ ко всем страницам и директориям сайта

Спецсимвол ‘$’.

По умолчанию, ежели мы пишем Disallow: /mystery, то на конце подразумевается вензель всех значений «*».

Чтобы оборвать его, используется вензель ‘$’

пример 4

User-agent: Yandex # – только для робота Yandex

Disallow: /mystery$ # запрещает ‘/mystery’,

# однако не запрещает ‘/mystery.html’

Также для ограничения индексации применяется МЕТА-тег “Robots”.

МЕТА-тег “Robots” , который пишеться в глубине HEAD, и позволяет создателям страниц указывать Роботам, можно ли индексировать эту страницу и можно ли использовать ссылки, приведенные на странице. Нынешний тег указывается на каждой конкретной странице, доступ к которой необходимо ограничить.

например

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

META-тег “Robots” включает указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, возможно ли робот индексировать страницу. Директива FOLLOW указывает роботу, возможно ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех без исключения директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Прототип:

Случайные записи



    Похожие посты

    Комментарии запрещены.

    Поиск
    Облако меток
    Наш опрос

    Какой язык Вам интересней?

    Показать результаты

    Loading ... Loading ...
    Календарь
    Сентябрь 2010
    Пн Вт Ср Чт Пт Сб Вс
    « Июль    
     12345
    6789101112
    13141516171819
    20212223242526
    27282930