Почему не индексируются некоторые страницы? Решаем проблему индексации страниц яндексом Почему дебильный яндекс определяет неправильное

Создали сайт, но не можете его найти в поисковиках? Не проблема! В этом материале Вы узнаете, как проиндексировать сайт в Яндекс и Google, за максимально короткий промежуток времени. Наверное, о плюсах быстрого попадания в индекс поисковых систем говорить излишне. Ведь любой понимает, что чем раньше его сайт будет показываться в поисковой выдаче, тем быстрее появятся новые клиенты. И чтобы это всё заработало, необходимо попасть в базу поисковиков.

Кстати говоря, благодаря правильному подходу, новые материалы нашего сайта достаточно хорошо, а самое главное всегда быстро индексируются поисковыми системами. Возможно и Вы попали на эту страницу после обращения соответствующим запросом в поисковой строке. От лирики же перейдём к практике.

Как узнать проиндексирован ли сайт?

Первое, что нужно сделать — узнать проиндексирован ли сайт поисковыми системами. Может быть так, что сайт просто не находится на первой странице поиска по тому запросу, которые Вы вводили. Это могут быть высокочастнотный запросы, чтобы показываться по которым нужно работать над , а не просто сделать и запустить сайт.

Итак, для проверки заходим во все поисковые системы, в которые имеет смысл заходить (Яндекс, Гугл, Мэйл, Рамблер ) и в строку поискового запроса вводим адрес сайта.

Если Ваш ресурс ещё не был проиндексирован — в результатах выдачи ничего не будет показано, либо покажутся другие сайты.

Как проиндексировать сайт в Яндексе?

Для начала расскажем, как проиндексировать сайт в Яндексе. Но прежде чем, добавить свой ресурс, проверьте, чтобы он корректно работал, правильно открывался на всех устройствах и содержал только уникальный контент . Например, если добавить сайт на стадии разработки, можно просто угодить под фильтр — с нами один раз такое случалось и пришлось ждать целый месяц, чтобы Яндекс понял, что у нас качественный сайт и снял санкции.

Чтобы сообщить Яндексу о новом сайте, необходимо и , первый инструмент отвечает за дополнительную информацию о ресурсе (регион, структура, быстрые ссылки ) и тот, как сайт выглядит в результатах органической выдачи, второй за сбор данных по сайту (посещаемость, поведение и прочее ), что согласно нашем опыту, так же оказывает влияние на индексацию сайта и его позиции в поиске. А ещё обязательно сделайте карту сайта и укажите её в панели вебмастеров.

Как проиндексировать сайт в Google?

Чаще всего Гугл сам достаточно оперативно находит новые сайты и загоняет их в поиск, но ждать, когда Google придёт и сделает за нам всю работу — слишком самонадеянно, поэтому давайте разберёмся, как проиндексировать сайт в Google.

Сначала — это панель вебмастеров Google, и . Придерживаемся тех же целей — дать максимум информации о сайте поисковым системам.

После того, как сайты добавлены, должно пройти от 3 до 7 дней , прежде чем поисковики обновят данные и проиндексируют сайт.

Всегда хочется, чтобы новые страницы сайта, стали показываться в результатах поиска, как можно быстрее и для этого есть несколько секретных (и очень простых) способов, как ускорить индексацию страниц сайта в поисковых системах.

3. Чтобы проделать манипуляцию описанную во 2-м пункте, только для поисковой системы Google, заходим в Search Console. Выбираем «Сканирование» и «Посмотреть, как Googlebot» -добавляем адрес новой страницы и нажимаем «Сканировать», после этого запрашиваем индексацию.

Анализ индексации сайта

В завершении необходимо отметить, что даже после успешной индексации сайта в поисковых системах, на этом работа не заканчивается. Необходимо периодически делать анализ индексации сайт, а так же снимать позиции по популярным запросам. Это позволит держать руку на пульсе и не оказать в ситуации, когда значительная часть трафика из органической выдаче просто исчезла.

Так случилось со многими старыми сайтами, которые использовали старые методы продвижения, после выхода . При этом, Яндекс заранее сообщил о том, что запускает этот алгоритм и переоптимизированные страницы будут исключены из поиска, а тот же Google, никогда не сообщает о выходе новых алгоритмов. Поэтому только неустанный контроль позволит оставаться лидером тематики или стать им!

Многие пользователи, особенно новички, задают одни и те же вопросы, на различных форумах, сайтах – почему не индексируются страницы поисковыми системами Яндекс и Google , либо же – почему плохо индексируется сайт или совсем перестал индексироваться сайт . В связи с этим разворачиваются огромные споры, так как причин, по этому поводу может быть масса и так сразу дать ответ не получиться, придется анализировать свой ресурс и выявлять конкретную причину.

Поэтому, давайте рассмотрим самый распространенные причины, по которым Ваш сайт может не индексироваться, либо же вылететь совсем из индекса.

Почему сайт не индексируется поисковыми системами?

Ускорение индексации. Не забывайте о том, чтобы Ваш сайт быстрее индексировался, необходимо добавлять , закладки и другие сервисы.

Можно еще добавить ссылку на аддурилку в поисковой системы, но некоторые говорят, что в этом случае, поисковая система поставит Ваш сайт в конец очереди для индексации. Хотя, если на Ваш сайт давно не заходил поисковой робот, то стоит это сделать.

Файл robots. txt. Возможно, у Вас не правильно составлен файл robots.txt, поэтому необходимо его просмотреть (возможно, закрыта в нем страница для индексации или вообще весь сайт).

Мета-теги. Возможно, у Вас страница закрыта от индексации с помощью мета-тегов, таких как: none, noindex, nofollow и так далее. Необходимо проверить и исправить ситуацию.

Вирус на сайте. Может быть такое, что на Вашем сайте поселился вирус, соответственно и выпал из выдачи, либо совсем не индексируется, поэтому Вам стоит .

Структура. У вас совсем не правильная структура на сайте. Возможно, нарушено правило трех кликов. То есть, чтобы добраться до конкретной статьи на сайте (страницы), необходимо произвести больше трех кликов.

Хостинг. Может быть такое, что Ваш проводит какие-то работы, в связи с этим поисковая система не может получить доступ к сайту (поисковой робот не может получить доступ к сайту) и возникают ошибки такого рода. Если поисковой робот Яндекс не может получить доступ к сайту, то прочитайте .

Домен. Может быть и такое, что Вы купили свой домен, на который были наложены санкции со стороны поисковых систем. Вам необходимо проверять доменное имя перед его покупкой.

Контент сайта. Самая распространенная причина, почему Ваш сайт не индексируется – на нем присутствует не уникальный контент. Вам стоит писать качественный и уникальный контент для сайта, а не копировать с других.

Как проверить страницу в индексе поисковых систем?

Существует масса вариантов, масса сервисов, но самый простой – это скопировать часть статьи (ее название или URL) и вставить в строку поиска и найти ее. Если Ваша страница появиться на первых страницах поиска, значит она проиндексирована, если нет – то увы.

Если есть проблемы с индексацией — в первую очередь надо проверить robots.txt и sitemap.xml.

Любая поисковая система имеет объемную базу данных, куда вносит все сайты и новые страницы. Эта база называется «индекс». Пока робот не обойдет html-документ, не проанализирует его и не внесет в индекс, он не появится в поисковой выдаче. Попасть на него можно будет только по ссылке.

Что значит «индексация»

Лучше, чем спец Яндекса по индексации, вам об этом не расскажет никто:

Индексация — это процесс, в ходе которого страницы сайта обходит поисковый робот и включает (либо же не включает) эти страницы в индекс поисковой системы. Поисковый бот сканирует весь контент, проводит семантический анализ текстового содержимого, качество ссылок, аудио- и видеофайлов. На основе всего этого поисковик делает выводы и вносит сайт в ранжирование.

Пока сайт вне индекса, о нем никто не узнает, кроме тех, кому вы можете раздать прямые ссылки. То есть ресурс доступен для просмотра, но в поисковой системе его нет.

Для чего вообще нужен индекс

Сайт должен попасть в видимость, чтобы продвигаться, расти и развиваться. Веб-ресурс, который не появляется ни в одной ПС, бесполезен и не несет пользы ни пользователям, ни его владельцу.

Вообще, вот полное видео со школы вебмастеров Яндекса, если посмотрите его полностью — станете практически спецом в вопросе индексации:

От чего зависит скорость индексации

Основные пункты, от которых зависит, насколько быстро ваш сайт может попасть в область внимания поисковых роботов:

  • Возраст домена (чем старше доменное имя, тем более к нему благосклонны боты).
  • Хостинг (ПС совершенно не любят и часто игнорируют бесплатные хостинги).
  • CMS, чистота и валидность кода.
  • Скорость обновления страниц.

Что такое краулинговый бюджет

У каждого сайта есть краулинговый бюджет — то есть количество страниц, больше которого в индекс попасть не может. Если КБ сайта — 1000 страниц, то даже если у вас их десять тысяч, в индексе будет лишь тысяча. Размер этого бюджета зависит от того, насколько ваш сайт авторитетный и полезный. И если у вас проблема такого характера, что страницы не попадают в индекс, то как вариант, вам нужно, как бы это банально ни звучало, улучшать сайт!

Индексация сайта

Создавая новый сайт, нужно правильно заполнить файл robots.txt, который указывает поисковикам, можно ли индексировать ресурс, какие страницы просканировать, а какие не трогать.

Файл создается в формате txt и помещается в корневой папке сайта. Правильный роботс — это отдельная тема. От этого файла в первую очередь зависит, что и как будут анализировать боты на вашем сайте.

Обычно, на оценку нового сайта и внесение его в базу данных поисковикам требуется от пары недель до пары месяцев.

Пауки тщательно сканируют каждый разрешенный html-документ, определяя соответствующую тематику для нового молодого ресурса. Осуществляется это действие не за один день. При каждом новом обходе ПС будут вносить все большее и большее число html-документов в свою базу. Причем время от времени контент будет подвергаться переоценке, вследствие которой могут меняться места страниц в поисковой выдаче.

Также управлять индексацией помогают мета-тег robots и отчасти canonical. При проверке структуры и решении проблем с индексацией надо всегда смотреть на их наличие.

Google сначала индексирует страницы верхнего уровня. Когда следует проиндексировать новый сайт с определенной структурой, первой в индекс попадает главная страница. После этого, не зная структуры сайта, поисковик будет индексировать то, что находится ближе к слешу. Позже индексируются каталоги с двумя слешами. Это значит, что, даже если ссылки в контенте расположены высоко, они не обязательно будут проиндексированы первыми. Важно оптимально составить структуру, чтобы важные разделы не находились за большим количеством слешей, иначе Google решит, что это страница низкого уровня.

Индексация страницы

Когда Яндекс и Гугл уже познакомились с сайтом и «приняли» его в свою поисковую базу, боты будут возвращаться на ресурс, чтобы сканировать новые, добавляющиеся материалы. Чем чаще и регулярнее будет обновляться контент, тем более пристально будут следить за этим пауки.

Говорят, что для индексации помогает плагин ПДС пингер для поиска Яндекса — https://site.yandex.ru/cms-plugins/ . Для этого нужно сначала установить поиск Яндекса на свой сайт. Но я особой пользы от него не ощутил.

Когда ресурс хорошо проиндексировался, выводить в поиск отдельные, новые страницы уже гораздо проще. Но тем не менее далеко не всегда анализ происходит равномерно и с одинаковой скоростью для всех, одновременно обновленных html-документов. Всегда выигрывают наиболее посещаемые и раскрученные категории ресурса.

Какие есть у поисковиков источники информации об url

Когда-то давно я привлекал быстроробота на конкурента, не продлившего домен, чтобы его понизили в выдаче – это не дало никакого результата.

Как проверить индексацию

Проверка видимости документов html осуществляется по-разному для Google и Яндекс. Но в целом не представляет собой ничего сложного. Сделать это сможет даже новичок.

Проверка в Яндекс

Система предлагает три основных оператора, позволяющих проверить, сколько html-документов находится в индексе.

Оператор «site:» – показывает абсолютно все страницы ресурса, которые уже попали в базу данных.

Вводится в строку поиска следующим образом: site:сайт

Оператор «host:» – позволяет увидеть проиндексированные страницы с доменов и поддоменов в рамках хостинга.

Вводится в строку поиска следующим образом: host:сайт

Оператор «url:» – показывает конкретную запрашиваемую страницу.

Вводится в строку поиска следующим образом: url:сайт/obo-mne

Проверка индексации этими командами всегда дает точные результаты и является самым простым способом анализа видимости ресурса.

Проверка в Google

ПС Гугл позволяет проверить видимость сайта только по одной команде вида site:сайт.

Но у Google есть одна особенность: он по-разному обрабатывает команду с введенными www и без. Яндекс же такого различия не делает и дает абсолютно одинаковые результаты, что с прописанными www, что без них.

Проверка операторами — это самый «дедовский» способ, но я для этих целей пользуюсь плагином для браузера RDS Bar.

Проверка с помощью Webmaster

В сервисах Google Webmaster и Yandex Webmaster также можно посмотреть, сколько страниц находится в базе данных ПС. Для этого нужно быть зарегистрированным в этих системах и внести в них свой сайт. Попасть в них можно по ссылкам:

Суть такая — просто вбиваете адреса страниц, и сервис вам выдаёт результаты:

Проверяет не очень быстро — там надо будет подождать минуты 3, но к бесплатному инструменту и претензий немного. Просто в фоновом окне ставьте и занимайтесь своими делами, через несколько минут результаты будут готовы.

Можно ли ускорить индексацию?

Повлиять на скорость загрузки html-документов поисковыми роботами можно. Для этого следует придерживаться следующих рекомендаций:

  • Повышать количество соцсигналов, побуждая пользователей делиться линками в своих профилях. А можно брать твиты с живых аккаунтов в Prospero (klout 50+). Если составите свой вайт-лист твиттеров, считайте, что получили мощное оружие для ускорения индексации;
  • Почаще добавлять новые материалы;
  • Можно по самым дешевым запросам в своей тематике директ начать крутить;
  • Вносить адрес новой страницы в аддурилки сразу же после ее публикации.

Высокие поведенческие факторы на сайте также положительно влияют на скорость обновления страниц в поиске. Поэтому не стоит забывать о качестве и полезности контента для людей. Сайт, который очень нравится пользователям, обязательно понравится и поисковым роботам.

В Google вообще все очень легко — добавить страницу в индекс в течение нескольких минут можно сканированием в панели для веб-мастеров (пункт сканирование/посмотреть как Googlebot/добавить в индекс). Таким же образом можно быстро переиндексировать необходимые страницы.

Я слышал еще истории о чуваках, которые отсылали урлы почтой Яндекса, чтобы они быстрее попали в индекс. На мой взгляд, это бред.

Если проблема прям есть, и все предыдущие советы не помогли, остается переходить к тяжелой артиллерии.

  • Настраиваем заголовки Last-modified (чтобы робот проверял на обновление только документы, которые действительно изменились с последнего его захода);
  • Удаляем мусор из индекса поисковых систем (этот мусор можно найти с помощью Comparser);
  • Скрываем от робота все ненужные/мусорные документы;
  • Делаем дополнительные файлы Sitemap.xml. Обычно роботы читают до 50 000 страниц из этого файла, если у вас страниц больше — надо делать больше сайтмапов;
  • Настраиваем работу сервера.

Индексация сайта в поисковых системах важна для каждого вебмастера. Ведь для качественного продвижения проекта следует следить за его индексацией. Я опишу процесс проверки индексации в Яндексе.

Индексация в Яндекс

Робот Яндекса день за днем просматривает сайты в поисках чего-нибудь «вкусненького». Собирает в топ выдачи те сайты и страницы, которые, по его мнению, наиболее этого заслуживают. Ну или просто Яндекс так захотел, кто его знает 🙂

Мы, как настоящие вебмастера, будем придерживаться теории, что чем качественнее сделан сайт, тем выше его позиции и больше трафик.

Проверить индексацию сайта в Яндексе можно несколькими способами:

  • с помощью Яндекс Вебмастера;
  • с использованием операторов поисковой системы;
  • с помощью расширений и плагинов;
  • с помощью онлайн-сервисов.

Индексация страниц сайта в Яндекс Вебмастер

Чтобы понять, что же там поисковик накопал на наш сайт, нужно зайти в наш любимый Яндекс Вебмастер в раздел «Индексирование».

Статистика обхода в Яндекс Вебмастер

Для начала зайдем в пункт «Статистика обхода». Раздел позволяет узнать, какие страницы вашего сайта обходит робот. Вы можете выявить адреса, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.

Раздел содержит информацию о страницах:

  • новые — страницы, которые недавно появились на сайте либо робот их только что обошел;
  • изменившиеся — страницы, который поисковик Яндекса раньше видел, но они изменились;
  • история обхода — количество страниц, которые обошел Яндекс с учетом кода ответа сервера (200, 301, 404 и прочие).

На графике отражены новые (зеленый цвет) и изменившиеся (синий цвет) страницы.

А это график истории обхода.

В этом пункте отображены страницы, которые Яндекс нашел.

N/a — URL не известен роботу, т.е. робот её раньше не встречал.

Какие выводы из скрина можно сделать:

  1. Яндекс не нашел адрес /xenforo/xenforostyles/, что, собственно, логично, т.к. этой страницы больше нет.
  2. Яндекс нашел адрес /bystrye-ssylki-v-yandex-webmaster/, что тоже вполне логично, т.к. страница новая.

Итак, в моем случае в Яндекс Вебмастере отражено то, что я и ожидал увидеть: что не надо — Яндекс удалил, а что надо — Яндекс добавил. Значит с обходом все у меня хорошо, блокировок никаких нет.

Страницы в поиске

Поисковая выдача постоянно меняется — добавляются новые сайты, удаляются старые, корректируются места в выдаче и так далее.

Информацию в разделе «Страницы в поиске» вы можете использовать:

  • для отслеживания изменений количества страниц в Яндексе;
  • для слежения за добавленными и исключенными страницами;
  • для выяснения причин исключения сайта из поисковой выдачи;
  • для получения информации о дате посещения сайта поисковиком;
  • для получения информации об изменении поисковой выдачи.

Чтобы проверить индексацию страниц и нужен этот раздел. Здесь Яндекс Вебмастер показывает страницы, добавленные в поисковую выдачу. Если все ваши страницы добавлены в раздел (новый добавятся в течение недели), то значит со страницами все в порядке.

Проверка количества страниц в индексе Яндекса с помощью операторов

Помимо Яндекс Вебмастера проверить индексацию страницы можно с помощью операторов непосредственно в самом поиске.

Будем использовать два оператора:

  • «site» — поиск по всем поддоменам и страницам указанного сайта;
  • «host» — поиск по страницам, размещенным на данном хосте.

Воспользуемся оператором «site». Заметьте, между оператором и сайтом нет пробела. 18 страниц находится в поиске Яндекса.

Воспользуемся оператором «host». 19 страниц проиндексировано Яндексом.

Проверка индексации с помощью плагинов и расширений

Проверить индексацию сайта с помощью сервисов

Таких сервисов очень много. Я покажу вам два.

Serphunt

Serphunt — онлайн-сервис для анализа сайта. У них есть полезный инструмент для проверки индексации страниц.

Одновременно можно проверить до 100 страниц сайта по двум поисковикам — Яндекс и Google.

Чтобы проверить индексацию страницы внесите её в список:

Нажимаем «Начать проверку» и через несколько секунд получаем результат:

Что такое индексирование? Это процесс получения роботом содержимого страниц вашего сайта и включение этого содержимого в результаты поиска. Если обратиться к цифрам, то в базе индексирующего робота содержится триллионы адресов страниц сайта. Ежедневно робот запрашивает миллиарды таких адресов.

Но этот весь большой процесс индексирования Интернета можно разделить на небольшие этапы:


Во-первых, индексирующий робот должен узнать о появлении страницы вашего сайта. Например, проиндексировав другие страницы в Интернете, найдя ссылки, либо загрузив файл set nemp. О страничке мы узнали, после чего планируем обход этой страницы, отправляем данные к вашему серверу на запрос этой страницы сайта, получаем контент и включаем его в результаты поиска.

Этот весь процесс – это процесс обмена индексирующим роботом с вашим сайтом. Если запросы, которые посылает индексирующий робот, практически не меняются, а меняется только адрес страницы, то ответ вашего сервера на запрос страницы роботом зависит от многих факторов:

  • от настроек вашей CMS;
  • от настроек хостинг провайдера;
  • от работы промежуточного провайдера.

Этот ответ как раз меняется. Прежде всего при запросе страницы робот от вашего сайта получает такой служебный ответ:


Это HTTP заголовки. В них содержится различная служебная информация, которая дает роботу понять передача какого контента сейчас будет происходить.

Мне хочется остановиться на первом заголовке – это HTTP-код ответа, который указывает индексирующему роботу на статус страницы, которую запросил робот.

Таких статусов HTTP-кодов несколько десятков:


Я расскажу о самых популярных. Наиболее распространенный код ответа – это HTTP-200. Страница доступна, ее можно индексировать, включать в результаты поиска, все отлично.

Противоположность этого статуса – это HTTP-404. Страница отсутствует на сайте, индексировать нечего, включать в поиск тоже нечего. При смене структуры сайтов и смене адресов внутренних страниц мы советуем настраивать 301 сервер на редирект. Как раз он укажет роботу на то, что старая страница переехала на новый адрес и необходимо включать в поисковую выдачу именно новый адрес.

Если контент страницы не менялся с последнего посещения страницы роботом, лучше всего возвращать код HTTP-304. Робот поймет, что обновлять в результатах поиска страницы не нужно и передача контента тоже не будет происходить.

При кратковременной доступности вашего сайта, например, при проведении каких-либо работ на сервере, лучше всего настраивать HTTP-503. Он укажет роботу на то, что сейчас сайт и сервер недоступны, нужно зайти немножко попозже. При кратковременной недоступности это позволит предотвратить исключение страниц из поисковой выдачи.

Помимо этих HTTP-кодов, статусов страниц, необходимо еще получить непосредственно контент самой страницы. Если для обычного посетителя страница выглядит следующим образом:


это картиночки, текст, навигация, все очень красиво, то для индексирующего робота любая страница – это просто набор исходного кода, HTML-кода:


Различные метатеги, текстовое содержимое, ссылки, скрипты, куча всякой информации. Робот собирает ее и включает в поисковую выдачу. Кажется, все просто, запросили страницу – получили статус, получили содержимое, включили в поиск.

Но недаром в службу поискового сервиса в Яндексе приходит более 500 писем от вебмастеров и владельцев сайтов о том, что возникли определенные проблемы как раз с ответом сервера.

Все эти проблемы можно разделить на две части:

Это проблемы с HTTP-кодом ответа и проблемы с HTML-кодом, с непосредственным содержимым страниц. Причин возникновения этих проблем может быть огромное множество. Самая распространенная – это блокировка индексирующего робота хостинг-провайдером.


Например, вы запустили сайт, добавили новый раздел. Робот начинает посещать ваш сайт чаще, увеличивает нагрузку на сервер. Хостинг-провайдер видит это на своих мониторингах, блокирует индексирующего робота, и поэтому робот не может получить доступ к вашему сайту. Вы заходите на ваш ресурс – все отлично, все работает, странички красивенькие, все открывается, все супер, робот при этом проиндексировать сайт не может. При временной недоступности сайта, например, если забыли оплатить доменное имя, сайт отключен на несколько дней. Робот приходит на сайт, он недоступен, при таких условиях он может пропасть из поисковой выдачи буквально через некоторое время.

Некорректные настройки CMS, например, при обновлении или переходе на другую CMS, при обновлении дизайна, так же могут послужить причиной того, что страницы вашего сайта могут пропасть из выдачи при некорректных настройках. Например, наличие запрещающего метатега в исходном коде страниц сайта, некорректная настройка атрибута canonical. Проверяйте, что после всех изменений, которые вы вносите на сайт, страницы доступны для робота.

В этом вам поможет инструмент в Яндекс. Вебмастере по проверке ответа сервера:


Можно посмотреть какие HTTP заголовки возвращает ваш сервер роботу, непосредственно содержимое страниц.


В разделе «индексирование» собрана статистика, где вы можете посмотреть какие страницы исключены, динамику изменения этих показателей, сделать различную сортировку и фильтрацию.


Так же, уже сегодня говорил об этом разделе, раздел «диагностика сайта». В случае, если ваш сайт стал недоступен для робота, вы получите соответствующее уведомление и рекомендации. Каким образом это можно исправить? Если таких проблем не возникло, сайт доступен, отвечает кодам-200, содержит корректный контент, то робот начинает в автоматическом режиме посещать все страницы, которые он узнает. Не всегда это приводит к нужным последствиям, поэтому деятельность робота можно определенным образом ограничить. Для этого существует файл robots.txt. О нем мы и поговорим в следующем разделе.

Robots.txt

Сам по себе файлик robots.txt – это небольшой текстовый документ, лежит он в корневой папке сайта и содержит строгие правила для индексирующего робота, которые нужно выполнять при обходе сайта. Преимущества файла robots.txt заключаются в том, что для его использования не нужно особых и специальных знаний.

Достаточно открыть Блокнот, ввести определенные правила по формату, а затем просто сохранить файл на сервере. В течении суток робот начинает использовать эти правила.

Если взять пример файла robots.txt простенького, вот он, как раз на следующем слайде:


Директива User-Agent:” показывает для каких роботов предназначается правило, разрешающие\запрещающие директивы и вспомогательные директивы Sitemap и Host. Немножко теории, хочется перейти к практике.

Несколько месяцев назад мне захотелось купить шагометр, поэтому я обратился к Яндекс. Маркету за помощью с выбором. Перешел с главной страницы Яндекс на Яндекс. Маркет и попал на главную страницу сервиса.


Внизу вы видите адрес страницы, на которую я перешел. К адресу самого сервиса еще добавился идентификатор меня, как пользователя на сайте.

Потом я перешел в раздел «каталог»


Выбрал нужный подраздел и настроил параметры сортировки, цену, фильтр, как сортировать, производителя.

Получил список товаров, и адрес страницы уже разросся.

Зашел на нужный товар, нажал на кнопочку «добавить в корзину» и продолжил оформление.

За время моего небольшого путешествия адреса страниц менялись определенным образом.


К ним добавлялись служебные параметры, которые идентифицировали меня, как пользователя, настраивали сортировку, указывали владельцу сайта откуда я перешел на ту или иную страницу сайта.

Такие страницы, служебные страницы, я думаю, что не очень будут интересны пользователям поисковой системы. Но если они будут доступны для индексирующего робота, в поиск они могут попасть, поскольку робот себя ведет, по сути, как пользователь.

Он переходит на одну страничку, видит ссылочку, на которую можно кликнуть, переходит на нее, загружает данные в базу робота свою и продолжает такой обход всего сайта. В эту же категорию таких адресов можно отнести и личные данные пользователей, например, такие, как информация о доставке, либо контактные данные пользователей.

Естественно, их лучше запрещать. Как раз для этого и поможет вам файл robots.txt. Вы можете сегодня вечером по окончанию Вебмастерской прийти на свой сайт, покликать, посмотреть какие страницы действительно доступны.

Для того, чтобы проверить robots.txt существует специальный инструмент в Вебмастере:


Можно загрузить, ввести адреса страниц, посмотреть доступны они для робота или нет.


Внести какие-то изменения, посмотреть, как отреагирует робот на эти изменения.

Ошибки при работе с robots.txt

Помимо такого положительного влияния – закрытие служебных страниц, robots.txt при неправильном обращении может сыграть злую шутку.

Во-первых, самая распространенная проблема при использовании robots.txt – это закрытие действительно нужных страниц сайта, те, которые должны находиться в поиске и показываться по запросам. Прежде чем вы вносите изменения в robots.txt, обязательно проверьте не участвует ли страница, которую вы хотите закрыть, не показывается ли по запросам в поиске. Возможно страница с каким-то параметрами находится в выдаче и к ней приходят посетители из поиска. Поэтому обязательно проверьте перед использованием и внесением изменений в robots.txt.

Во-вторых, если на вашем сайте используются кириллические адреса, в robots.txt их указать не получится в прямом виде, их обязательно нужно кодировать. Поскольку robots.txt является международным стандартным, им следуют все индексирующие роботы, их обязательно нужно будет закодировать. Кириллицу в явном виде указать не получится.

Третья по популярности проблема – это различные правила для разных роботов разных поисковых систем. Для одного индексирующего робота закрыли все индексирующие страницы, для второго не закрыли совсем ничего. В результате этого у вас в одной поисковой системе все хорошо, в поиске нужная страница, а в другой поисковой системе может быть трэш, различные мусорные страницы, еще что-то. Обязательно следите, если вы устанавливаете запрет, его нужно делать для всех индексирующих роботов.

Четвертая по популярности проблема – это использование директивы Crawl-delay, когда в этом нет необходимости. Данная директива позволяет повлиять на чистоту запросов со стороны индексирующего робота. Это практический пример, маленький сайт, разместили его на небольшом хостинге, все прекрасно. Добавили большой каталог, робот пришел, увидел кучу новых страниц, начинает чаще обращаться на сайт, увеличивает нагрузку, скачивает это и сайт становится недоступным. Устанавливаем директиву Crawl-delay, робот видит это, снижает нагрузку, все отлично, сайт работает, все прекрасно индексируется, находится в выдаче. Спустя какое-то время сайт разрастается еще больше, переносится на новый хостинг, который готов справляться с этими запросами, с большим количеством запросов, а директиву Crawl-delay забывают убрать. В результате чего робот понимает, что на вашем сайте появилось очень много страниц, но не может их проиндексировать просто из-за установленной директивы. Если вы когда-либо использовали директиву Crawl-delay, проверьте, что сейчас ее нет и что ваш сервис готов справиться с нагрузкой от индексирующего робота.


Помимо описанной функциональности файл robots.txt позволяет еще решить две очень важные задачи – избавиться от дублей на сайте и указать адрес главного зеркала. Об этом как раз мы и поговорим в следующем разделе.

Дубли


Под дублями мы понимаем несколько страниц одного и того же сайта, которые содержат абсолютно идентичный контент. Самый распространенный пример – это страницы со слешом и без слеша в конце адреса. Так же под дублем можно понимать один и тот же товар в различных категориях.

Например, роликовые коньки могут быть для девочек, для мальчиков, одна и та же модель может находиться в двух разделах одновременно. И, в-третьих, это страницы с незначащим параметром. Как в примере с Яндекс. Маркетом эта страничка «идентификатор сессии», такой параметр не меняет контент страницы в принципе.

Чтобы обнаружить дубли, посмотреть к каким страницам робот обращается, вы можете использовать Яндекс. Вебмастер.


Помимо статистики есть еще и адреса страниц, которые робот загрузил. Вы видите код и последнее обращение.

Неприятности, к которым приводят дубли

Чем же плохи дубли?

Во-первых, робот начинает обращаться к абсолютно идентичным страницам сайта, что создает дополнительную нагрузку не только на ваш сервер, но и влияет на обход сайта в целом. Робот начинает уделять внимание дублирующим страницам, а не тем страницам, которые нужно индексировать и включать в поисковую выдачу.


Вторая проблема – это то, что дублирующие страницы, если они доступны для робота, могут попасть в результаты поиска и конкурировать с основными страницами по запросам, что, естественно, может негативно повлиять на нахождение сайта по тем или иным запросам.

Как можно бороться с дублями?

Прежде всего я советую использовать “canonical” тег для того, чтобы указать роботу на главную, каноническую страницу, которая должна индексироваться и находиться в поиске по запросам.

Во втором случае можно использовать 301 серверный редирект, например, для ситуаций со слешом на конце адреса и без слеша. Установили перенаправление – дублей нет.


И в-третьем, как я уже говорил, это файл robots.txt. Можно использовать как запрещающие директивы, так и директиву Clean-param для того, чтобы избавиться от незначащих параметров.

Зеркала сайта

Вторая задача, которую позволяет решить robots.txt – это указать роботу на адрес главного зеркала.


Зеркала – это группа сайтов, которые абсолютно идентичны, как дубли, только различные два сайта. Вебмастера обычно с зеркалами сталкиваются в двух случаях – когда хотят переехать на новый домен, либо, когда для пользователя нужно сделать несколько адресов сайта доступными.

Например, вы знаете, что пользователи, когда набирают ваш адрес, адрес вашего сайта в адресной строке, часто делают одну и ту же ошибку – опечатываются, не тот символ ставят или еще что-то. Можно приобрести дополнительный домен для того, чтобы пользователям показывать не заглушку от хостинг-провайдера, а показывать тот сайт, на который они действительно хотели перейти.

Остановимся на первом пункте, потому что именно с ним чаще всего и возникают проблемы в работе с зеркалами.

Весь процесс переезда я советую осуществлять по следующей инструкции. Небольшая инструкция, которая позволит вам избежать различных проблем при переезде на новое доменное имя:

Во-первых, вам необходимо сделать сайты доступными для индексирующего робота и разместить на них абсолютно идентичный контент. Так же убедитесь, что о существовании сайтов роботу известно. Проще всего добавить их в Яндекс. Вебмастер и подтвердить на них права.

Во-вторых, с помощью директивы Host указывайте роботу на адрес главного зеркала – тот, который должен индексироваться и находиться в результатах поиска.

Ждем склейки и переноса всех показателей со старого сайта на новый.


После чего уже можно установить перенаправление со старого адреса на новый. Простенькая инструкция, если вы переезжаете, обязательно используйте ее. Надеюсь, проблем не возникнет с
переездом.

Но, естественно, при работе с зеркалами возникают ошибки.

Прежде всего самая главная проблема – это отсутствие явных указаний для индексирующего робота на адрес главного зеркала, тот адрес, который должен находиться в поиске. Проверьте на ваших сайтах, что в robots.txt у них указана директива хоста, и она ведет именно на тот адрес, который вы хотите видеть в поиске.

Вторая по популярности проблема – это использование перенаправления для того, чтобы сменить главного зеркала в уже имеющейся группе зеркал. Что происходит? Старый адрес, поскольку осуществляет перенаправление, роботом не индексируется, исключается из поисковой выдачи. При этом новый сайт в поиск не попадает, поскольку является неглавным зеркалом. Вы теряете трафик, теряете посетителей, я думаю, что это никому не нужно.


И третья проблема – это недоступность одного из зеркал при переезде. Самый распространенный пример в этой ситуации, когда скопировали контент сайта на новый адрес, а старый адрес просто отключили, не оплатили доменное имя и он стал недоступен. Естественно такие сайты склеены не будут, они обязательно должны быть доступны для индексирующего робота.

Полезные ссылки в работе:

  • Больше полезной информации вы найдете в сервисе Яндекс.Помощь .
  • Все инструменты, о которых я говорил и даже больше – есть бета-версия Яндекс.Вебмастера .

Ответы на вопросы

«Спасибо за доклад. Нужно ли в robots.txt закрывать индексацию CSS-файлов для робота или нет?».

На текущий момент мы не рекомендуем закрывать их. Да, CSS, JavaScript лучше оставить, потому что сейчас, мы работаем над тем, чтобы индексирующий робот начал распознавать и скрипты на вашем сайте, и стили, видеть, как посетитель из обычного браузера.

«Подскажите, а если url’ы адресов сайта будут одинаковые, у старого и у нового – это нормально?».

Да, ничего страшного. По сути, у вас просто обновление дизайна, добавление какого-то контента.

«На сайте есть категория и она состоит из нескольких страниц: слеш, page1, page2, до 10-ти, допустим. На всех страницах один текст категории, и он, получается, дублирующий. Будет ли этот текст являться дубликатом или нужно его как-то закрывать, новый индекс на вторых и далее страницах?».

Прежде всего, поскольку на первой странице пагинации, а на второй странице контент, в целом-то, отличаются, они дублями не будут. Но нужно рассчитывать, что вторая, третья и дальше страницы пагинации могут попасть в поиск и показывать по какому-либо релевантному запросу. Лучше в страницах пагинации я бы рекомендовал использовать атрибут canonical, в самом лучшем случае – на странице, на которой собраны все товары для того, чтобы робот не включал страницы пагинации в поиске. Люди очень часто используют canonical на первую страницу пагинации. Робот приходит на вторую страницу, видит товар, видит текст, страницы в поиск не включает и понимает за счет атрибута, что надо включать в поисковую выдачу именно первую страницу пагинации. Используйте canonical, а сам текст закрывать, думаю, что не нужно.

Источник (видео): Как настроить индексирование сайта - Александр Смирнов

Магомед Чербижев

Поделиться: