Акция на SEO
Руководство для начинающих: все, что нужно знать о robots.txt

Руководство для начинающих: все, что нужно знать о robots.txt

3 месяца назад

У вас больше контроля над поисковыми системами, чем вы думаете. Это правда! Вы можете манипулировать тем, кто сканирует и индексирует ваш сайт, вплоть до отдельных страниц. Чтобы управлять этим, вам нужно будет использовать файл robots.txt.

Robots.txt - это простой текстовый файл, который находится в корневом каталоге вашего сайта. Он сообщает роботам поисковых систем о страницах, которые нужно сканировать, и которые не нужно посещать.

Хотя это не совсем то, что вам нужно. Вы наверняка поняли, что это довольно мощный инструмент, и позволит вам представить свой сайт поисковикам как вы хотите. Поисковые системы – это судьи с суровым характером, поэтому важно произвести на них большое впечатление. Robots.txt при правильном использовании может улучшить частоту сканирования, что может повлиять на ваши усилия в SEO.

Итак, как его создать? Как им пользоваться? Чего нужно избегать? Прочтите эту статью, чтобы найти ответы на все эти вопросы.

Что такое файл Robots.txt?

Раньше, когда интернет был просто ребенком, способным делать великие вещи, разработчики придумали способ ползать и индексировать свежие страницы в интернете. Они назвали это «роботами» или «пауками».

Иногда эти маленькие ребята блуждали по сайтам, которые не предназначались для обхода и индексирования, например, сайты, которые проходят техническое обслуживание. Создатель первой в мире поисковой системы, Aliweb, рекомендовал решение – всевозможный ориентир, которому должны следовать все роботы.

Это решение было окончательно доработано в июне 1994 года группой интернет-специалистов по технике безопасности и названо «Протокол исключения роботов».

Файл robots.txt - это реализация этого протокола. Протокол определяет правила, которыми должен следовать каждый настоящий робот. Включая ботов Яндекс и Google. Некоторые незаконные роботы, например, вредоносное ПО, шпионские программы и т.п., по определению, действуют вне этих правил. Вы можете заглянуть за завесу любого веб-сайта, введя любой URL-адрес и добавив: /robots.txt в конце.

Пример файла:

User-agent: *
Disallow: /index.php

Где найти файл Robots.txt

Ваш файл robots.txt будет храниться в корневом каталоге вашего сайта. Чтобы найти его, зайдите на FTP, и вы сможете найти файл в своем каталоге public_html.

Где найти файл Robots.txt

В нем нет ничего такого, чтобы он много весил, вероятно, всего несколько сотен байт. После того как вы откроете файл в текстовом редакторе, вы увидите что-то вроде этого:

Файл Robots.txt

Если вы не можете найти файл в корневом каталоге вашего сайта, тогда вам придется создавать свой собственный.

Как создать файл Robots.txt

Robots.txt - это базовый текстовый файл, поэтому его просто создать. Все, что вам понадобится, это простой текстовый редактор, например, «Блокнот». Откройте лист и сохраните пустую страницу как «robots.txt».

Теперь войдите на хостинг и найдите папку public_html для доступа к корневому каталогу сайта. Как только она будет открыта, перетащите файл в неё.

Наконец, необходимо убедиться, что установлены правильные разрешения для файла. В принципе, как владелец, вы должны иметь права на запись, чтение и редактирование файла, но никто другой не должен иметь таких прав. Файл должен отображать код разрешения "0644".

Разрешения на файл robots.txt

Если права отличаются от "0644", вам нужно будет изменить их, поэтому нажмите на файл и выберите «свойства». Вуаля! У вас есть файл Robots.txt.

Синтаксис Robots.txt

Файл robots.txt состоит из нескольких разделов «директив», каждый из которых начинается с указания User-agent. User-agent - это имя конкретного робота, к которому обращается код.

Доступны два варианта:

  1. Вы можете использовать звездочку (*) для одновременного обращения ко всем поисковым системам.
  2. Вы можете обращаться к конкретным поисковым системам по отдельности.

Когда бот готов для обхода веб-сайта, он будет обращаться к блокам, которые вызывают его.

Вот пример:

User-agent: Yandex
Disallow: /index.php

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Директива User-Agent

Первая строка в каждом блоке - это «user-agent», в котором указывается конкретный бот. «User-agent» будет соответствовать определенному имени бота, например:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Итак, если вы хотите сказать роботу Google что делать, например, начните с:

User-agent: Googlebot

Поисковые системы всегда стараются точно определить конкретные директивы, которые наиболее тесно связаны с ними. Так, например, если у вас есть две директивы, одна для Googlebot и одна для Yandex. Бот, который приходит вместе с user-agent «Yandex», будет следовать его инструкциям, тогда как бот «Googlebot» пройдет через это и отправится на поиски более конкретной директивы. В большинстве поисковых систем есть несколько разных ботов, вот списки ботов Яндекса и Google.

Директива Host

Директива host до недавнего времени поддерживалась только Яндексом (было объявлено о прекращении поддержки), хотя существуют некоторые предположения, что Google поддерживал или поддерживает её. Эта директива позволяет вебмастеру решить показывать www перед URL-адресом. Для этого используется этот блок:

Host: site.ru

Так как официально обе поисковые системы отказались от использования директивы Host, то для указания главного зеркала рекомендуется использовать 301 редирект.

Директива Disallow

Более конкретно рассмотрим эту директиву чуть позже. Вторая строка в блоке директив - Disallow. Вы можете использовать её, чтобы указать, какие разделы сайта не должны быть доступны ботами. Пустое значение Disallow означает, что сайт является доступным для всех, и боты могут ходить где угодно.

Директива Sitemap

Используя директиву sitemap, вы указываете поисковым системам, где можно найти файл Sitemap в формате XML. Однако, наиболее правильным было бы отправить каждый файл в формате XML в поисковые системы через специальные инструменты в панели веб-мастеров поисковых систем. Это связано с тем, что в панели вы можете узнать много ценной информации о вашем веб-сайте.

Однако, если у вас мало времени, директива sitemap является жизнеспособной альтернативой.

Директива Crawl-Delay

Google, Yahoo, Bing и Яндекс могут немного нагрузить ваш сайт, когда дело доходит до обхода, но они действительно реагируют на директиву crawl-delay, которая сдерживает их некоторое время. Допишите эту строку к вашему блоку:

Crawl-delay: 10

Это означает, что вы можете заставить поисковые системы ждать десять секунд, прежде чем снова обходить сайт, т.е. поисковый робот делает паузу между обходами вашего сайта.

Зачем использовать Robots.txt

Теперь вы знаете об основных принципах и о том, как использовать несколько директив, вы можете собрать свой файл. Robots.txt не является существенным элементом успешного веб-сайта, на самом деле ваш сайт все еще может правильно функционировать и занимать хорошие позиции без него.

Однако есть несколько ключевых преимуществ, о которых вы должны знать:

  • Приватная информация: запрещайте ботам посещать ваши личные данные, это значительно усложнит их индексирование и появление в открытом доступе в поисковой выдаче.
  • Держите ресурсы под контролем: каждый раз, когда бот сканирует ваш сайт, он тратит пропускную способность и другие ресурсы сервера. Например, сайты с тоннами контента и большим количеством страниц, например, на сайтах электронной коммерции могут иметь тысячи страниц, и эти ресурсы могут быть быстро истощены. Вы можете использовать robots.txt, чтобы затруднить доступ ботов к отдельным скриптам и изображениям; это сохранит ценные ресурсы сервера для реальных посетителей.

Вы, конечно, хотите, чтобы поисковые системы находили путь к наиболее важным страницам вашего сайта. Вы можете контролировать, какие страницы дать в приоритет поисковикам, но не забудьте полностью блокировать от них определенные страницы.

Запрет в robots.txt

Например, если мы посмотрим на файл robots, мы увидим, что URL-адрес www.alkosto.ru/manager/ не разрешен к индексации.

Поскольку эта страница сделана только для того, чтобы мы вошли в панель управления системой, нет смысла позволять ботам тратить свое время и энергию на её сканирование.

Noindex

Итак, мы говорили о директиве Disallow, как будто это ответ на все наши проблемы. Тем не менее, это не всегда препятствует индексированию страницы. Вы можете потенциально запретить страницу к обходу, и она все равно может оказаться где-то в результатах поисковой выдачи. Нам поможет тэг noindex. Он работает в тандеме с командой disallow, чтобы боты не обошли определенные страницы и не проиндексировали их.

Вот пример того, как это делается:

Disallow: /page/
Noindex: /page/

После того, как вы указали эти инструкции, выбранная страница не окажется в результатах поиска ... или, мы просто так думаем. Экспериментальные результаты разнятся на этот счет, каким-то сайтам это помогало, а каким-то нет.

Что следует избегать

Мы немного поговорили о том, что вы можете сделать, и о том, как вы можете управлять своим robots.txt, но мы немного углубимся в каждый пункт этого раздела и объясним, как каждый параметр может превратиться в катастрофу для вашего SEO, если не используется должным образом.

Чрезмерное использование Crawl-Delay

Мы уже объяснили, что делает директива Crawl-Delay с задержкой, но вы должны избегать слишком частого ее использования, так как вы ограничиваете роботов сканировать страницы вашего сайта. Для некоторых сайтов это неплохо, но, если у вас есть огромный веб-сайт, вы можете тем самым выстрелить себе в ногу и препятствовать хорошему ранжированию и постоянному обновлению вашего сайта поисковыми системами.

Использование для предотвращения индексирования

Мы уже немного рассмотрели этот момент. Как уже было сказано, Disallow для страницы - лучший способ попытаться не допустить, чтобы боты сканировали ее напрямую. Но это не сработает в следующих случаях:

  • Если страница была связана с внешним источником (например, ссылки на сторонних ресурсах), боты все равно будут попадать на страницу и индексировать ее.
  • Нелегальные боты будут игнорировать robots.txt и индексировать контент.

Использование для защиты приватной информации

Некоторые личные материалы, такие как PDF-файлы или страницы с благодарностью, могут индексироваться, даже если вы запретили ботам это делать. Один из лучших методов, которому следует придерживаться помимо директивы disallow, заключается в том, чтобы поместить всю вашу личную информацию за регистрацию.

Конечно, это добавляет трудностей для ваших посетителей (регистрация), но ваш контент останется в безопасности.

Использование для скрытия повторяющегося содержимого

Дублируемый контент иногда является необходимым злом - например, страницы для печати. Однако поисковые системы достаточно умны и знают, когда вы пытаетесь скрыть что-то. Вот три способа решения такого рода проблемы:

  • Переписывайте контент. Создание захватывающего и полезного контента побудит поисковые системы просматривать ваш сайт в качестве надежного источника информации.
  • 301 редирект - сообщает поисковым системам, что страница перенесена в другое место. Добавьте 301 на страницу с дублирующимся контентом и переадресуйте посетителей на исходный контент на сайте.
  • Rel = "canonical" - это тег, который сообщает о первоначальном местоположении дублированного контента. Это особенно важно для веб-сайта электронной коммерции, где CMS часто генерирует повторяющиеся версии одного и того же URL-адреса.

Момент истины: проверка файла Robots.txt

Настало время проверить ваш файл, чтобы убедиться, что все работает так, как вы этого хотите. В Инструментах для веб-мастеров Яндекс и Google есть раздел проверки robots.txt.

Проверка файла Robots.txt

Если проверка дала положительный результат, то вы получили полностью работоспособный файл robots.txt. Создание правильного файла robots.txt, означает, что вы улучшаете своё SEO и не позволяете поисковым системам показывать в результатах выдачи ненужные страницы.

Если у вас возникли трудности в оптимизации или необходимо продвижение сайта, то наши специалисты обязательно вам помогут. Звоните!

Поделитесь
Расскажи своим друзьям в социальных сетях
Будь первым
Подпишись на наши новости и получай интересный материал
Заполняя форму вы соглашаетесь с политикой конфиденциальности
Меню
Закрыть