Файл robots.txt для сайта Joomla – зачем нужен, как создать

: Категория: Инструменты веб–мастера

От автора

Файл robots.txt текстовой файл, для управления поведением поисковых машин при сканировании сайта. Используя директории disallow можно закрывать от сканирования отдельные страницы сайта, его разделы и сайт целиком. Однако, disallow закрывают индексирование страниц только для ботов Яндекс.

О файле robots.txt

Не стоит откладывать шаги по подготовке сайта к индексации до заполнения его материалами. Основную подготовку сайта к индексации можно сделать сразу после создания сайта.

Основными инструментами для управления поисковых систем Google, Яндекс, Bing и других является текстовой файл robots.txt. С помощью файла robots.txt можно управлять, что поисковики должны сканировать, а что им следует обходить. Яндекс читает директивы файла robots.txt не только для разрешения на сканирование, но и разрешения на индексирование страниц. Если страница есть в запрете robots, Яндекс, через некоторое время уберет её из индекса, если она там есть, и не индексирует, если страницы нет в индексе.

Файл robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны сканировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле robots.txt.

Чтобы посмотреть, как выглядит файл robots.txt ( если он есть в каталоге сайта), достаточно в строке браузера к имени сайта, через слеш приписать robots.txt.

Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно посмотреть на Яндекс (https://help.yandex.ru/webmaster/?id=996567). Здесь остановлюсь на основных правилах, которые помогут создать файл robots.txt для сайта Joomla.

Правила создания файла robots.txt

Для начала обращу ваше внимание: файл robots.txt должен создаваться индивидуально, учитывая особенности структуры сайта и политики его продвижения. Предложенный вариант файла является условным и примерным и не может претендовать на универсальность.

Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

Пустой файл robots.txt означает индексацию всего сайта.

Казалось бы, что тут плохого. Пусть поисковики сканируют и индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, и другой мусорный материал. Поисковики этого не любят, особенно дубли страниц, да и за этим «мусором» основной материал может теряться.

Директивы файла robots.txt

«User-agent» это именное или общее обращение к поисковикам.
«Allow» это разрешающие директивы;
«Disallow» это запрещающие директивы.

Директива «User-agent»

Если в строке User-agent поисковик не указан, в строке «User-agent» стоит звездочка (*), значит, все директивы файла robots.txt относятся ко всем поисковикам.

Можно задать правила индексации для определенного поисковика. Например, правила для Яндекс должны прописываться в директиве «User-agent» ,так

User-agent: Yandex

Приведу пример других поисковиков ,которые можно прописать в директории «User-agent».

Google Googlebot
Yahoo! Slurp ( или Yahoo! Slurp)
AOL Slurp
MSN MSNBot
Live MSNBot
Ask Teoma
AltaVista Scooter
Alexa ia_archiver
Lycos Lycos
Яндекс Yandex
Рамблер StackRambler
Мэйл.ру Mail.Ru
Aport Aport
Вебальта WebAlta (WebAlta Crawler/2.0)

Важно! В файле robots.txt обязательна, должна быть директива «Disallow». Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.

Разберем знаки синтаксиса, которые задают правила индексации

Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).

Символ «звездочка» (*) означает «любой» , «все».
Символ ($) отменяет (*)
Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.

Например, строка:

Disallow:

Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта. А строка:

Disallow: /

Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта. Строка типа:

Disallow: /components/

Полностью формирует запрет на всю папку /components/ ,которая находится по адресу: http://ваш_сайт/components/

А вот строка

Disallow: /components

Создает запрет на папку “components” и на все файлы и папки начинающиеся на “components”. Например: “components56”;”components77”.

Если к приведенным примерам директорий “Disallow”, добавить для какого поисковика это правило создано, получаем готовый файл robots.txt

User-agent: Yandex
Disallow:

Это файл robots.txt который означает, что поисковик Yandex может индексировать весь сайт без исключений.

А такое написание строк:


User-agent: Yandex
Disallow: /

Наоборот полностью запрещает Yandex индексировать весь сайт.

Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.

Следующий пример это файл robots.txt шаблонного (только, что установленного) сайта на Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.

Дополнительная информация в файле robots.txt

В файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.

Sitemap: http://exempl.com/sitemap.xml.gz
Sitemap: http://exempl.com/sitemap.xml

Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.

Host: www.vash-site.com # означает, что основное зеркало сайта с www.

или

Host: vash-site.com #означает, что основной домен сайта без www.

Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и после двоеточия всё должно быть написано в нижнем регистре.

Важно! Старайтесь не использовать шаблоные файла robots.txt взятвые из Интернет (кроме robots.txt Joomla по умочанию). Каждый фал robots.txt должен составляться индивидуально и редактироваться в зависимости от посещаемости сайта и его SEO анализа.

В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.


User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /tmp/
Disallow: /templates/

User-agent: Yandex
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /templates/
Disallow: /*?*

Host: domen.ru (или https://domen.ru)

Sitemap: http://domen.ru/sitemap.xml (или https://domen.ru/sitamap.xml)

Выводы

Несмотря на традиции, замечу, для закрытия страниц сайт от индексации используйте внутренние инструменты CSM. Во всех редакторах контента есть вставке тегов noindex, nofollow.

Рекомендую использовать robots.txt для:

закрытия всего сайта при его создании;
закрытия сайта от ненужных поисковиков;
закрытия личных разделов;
снижения нагрузки на сервер (директива crawl-delay).

Не рекомендую применять robots.txt для:

закрытия индексации страниц пейджинга, сортировки и поиска;
Закрывать дубли страниц только для Яндекс, а для Google использовать средства CMS;
Не пытаться удалить из индекса Google страницы и разделы. Это работает только для Яндекс.

В итоге, еще раз замечу, файл robots.txt для сайта Joomla составляется индивидуально. Для начала работ используйте коробочную версия файла robots.txt.disc, который переименуйте в robots.txt и разделите на две секции, одна для Яндекс и вторая, для всех остальных ботов. Для Яндекс обязательно добавьте директорию Host, указав в ней главное зеркало сайта.

©Joomla-abc.ru

Файл robots.txt для сайта Joomla – зачем нужен, как создать

От автора

О файле robots.txt

Правила создания файла robots.txt

Директивы файла robots.txt

Директива «User-agent»

Разберем знаки синтаксиса, которые задают правила индексации

Дополнительная информация в файле robots.txt

Выводы

Другие статьи раздела: Поисковая оптимизация Joomla

Похожие статьи

Карта сайта для поисковиков, генера...

Как начать контролировать доступнос...

Реклама

Последние статьи

Популярные

Веб-мастеру

Краткие инструкции

Реклама

Связанные материалы

Joomla уроки

Joomla 2.5 и 3.x