Дубли страниц – одинаковые документы, доступ к которым можно получить через несколько URL-адресов. Стоит отметить, что дублям страниц, в основном, подвержены различные CMS. Они безвредны до момента, пока не попадут в индекс. Индексацию необходимо отслеживать и незамедлительно реагировать, если что-то лишнее туда попало. В этой статье мы рассмотрим не только вопрос того, как удалить дубли страниц на сайте, но и как продумать оптимальную структуру интернет-ресурса.
Часто встречающиеся ошибки
Допустим, на сайте создана категория «job online», к ней привязан ряд других подкатегорий – «Copywriting», «Forex», и уже к последним - материалы. Если будет создан пункт меню лишь для подкатегорий, к примеру, «Copywriting», то могут появиться дополнительные ссылки, ведущие к контенту, такие как:
https://forexaccess.ru/copywriting/24-seo
https:// forexaccess.ru/1-job-online/copywriting/24-seo
https://forexaccess.ru/1-job-online/2-copywriting/24-seo
https://forexaccess.ru/index.php?option=com_content&task=view&id=24&Itemid=1 и т.д.
То есть, для формирования Url появляется множество возможностей. Все вышеперечисленные адреса будут вести к одной страничке. Описанное показывает, как чаще всего происходит. Помимо этого, поисковики могут брать в индекс и технические копии, переходя по ссылкам "Print", "PDF", "Send to afriend". Поэтому так важно продумать структуру заранее, определив главные категории и подкатегории. Когда ресурс начнет расти можно добавлять дополнительные разделы, не меняя существующей структуры.
Важно знать, что реструктуризация веб-площадки на пике разработки – это провал. Ему будет способствовать изменение Url-ов некоторых страниц, в худшем случае всех. А если все они были проиндексированы ранее, то и останутся «висеть» под старыми адресами, то есть будут недоступны. Это приведет к снижению рейтинга в результатах поиска и падению в несколько раз посещаемости.
Как появляются дубли страниц и как попадают в поисковые системы?
Изучая вопрос того, как удалить дубли страниц на сайте, стоит рассмотреть и причины, по которым они появляются. В некоторых случаях дубли страниц становятся видны в карте веб-сайта. Следует отметить, что на проиндексированном ресурсе проще отыскать дублированный контент. Для этого нужно скопировать уникальный материал со странички, заключить в кавычки и вставить в поисковую строку. Поисковик моментально выдаст все адреса, по которым можно отыскать статью. Если их несколько, то это будет свидетельствовать о наличии дублей страниц. Что касается неиндексированного ресурса, то проверить его можно на XENU.
Зачем закрывать доступ к дублям страниц?
Поисковые машины не индексируют веб-сайты с большим числом идентичных страничек, потому как выбирают наиболее релевантные. Если у последних имеются дубли, то при обновлении поисковики могут попросту «выкинуть» релевантные и на их место установить дубли, что, как правило, приводит к падению позиций веб-площадки и понижению трафика.
5 популярных решений по удалению дублей страниц
Все они подходят для любых CMS и валидны, если на вебсайте включен SEF и перенаправление страничек.
1. Robots.txt
Находится в корневой папке движка. Просмотреть его можно, введя адрес сайта/robots.txt. Файл показывает поисковикам, как ресурс должен индексироваться. С помощью Robots.txt можно закрывать определенные части площадки. Для этого всего-то следует прописать перед ними Disallow: /
Принятие решения по использованию этой команды лежит полностью на владельце вебсайта. Слишком длинный Robots.txt воспринимается как полностью разрешающим. Disallow: /*? не должна ограничивать доступ к чему-то полезному, типа карты ресурса, поэтому перед ней лучше прописать Allow: /.
2. Redirect 301
Redirect 301 применяется, если были поменяны пути к страничкам (адреса). Для привязки их к источнику данных следует воспользоваться redirect 301. Все его команды должны быть прописаны в файле «.htaccess». Это позволит поисковым машинам понять, что страничка была перемещена и лежит в другом месте с доступом по новому адресу. Данный метод никак не влияет на посещаемость и PR, то есть последние остаются на прежнем уровне.
301 redirect помогает склеивать и дубли страниц. Его часто используют, когда требуется «главную» с приставкой к адресу /index.php привязать с стандартному URL (без приставки). Для этого необходимо открыть «.htaccess» и ввести туда
Redirect 301 /index.php http://forexaccess.ru/
Тут же рекомендуется произвести «склейку» url-ов с www и без.
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [NC]
RewriteRule ^(.*)$ http://forexaccess.ru/$1 [R=301,L]
3. Мета-тег Robots
Еще один неплохой варинат для закрытия дотупа от индексации к дублям страниц.
<meta name="robots" content="noindex" />
4. Ручное удаление дублей из панели Вебмастера
Если это Google, то сделать это можно, перейдя по ссылке:
https://www.google.com/webmasters/tools/home?hl=ru
Если Яндекс, то:
http://webmaster.yandex.ru/delurl.xml
5. Тег X-Robots-Tag
Является альтернативой 4 методу. Его рекомендует применять Google.
HTTP/1.1 200 OK
Date: Tue, 25 May 2015 21:42:43 GMT
...
X-Robots-Tag: noindex
...
Как удалить дубли страниц, если их слишком много на сайте?
Нужно зайти в https://webmaster.yandex.ru/, выбрать из списка сайт, затем пройти по пути «индексирование» - «страницы в поиске» и в самом низу найти и скачать таблицу со ссылками в файле XLS (рекомендовано) или CSV.
Затем потребуется открыть его на ПК. В нем будет несколько колонок. Дубли страниц Joomla будут помечены словом «DUPLICATE», а находящиеся в поиске -«SEARCHABLE» в колонке под названием «status». Что касается адресов, то их можно будет увидеть в колонке под названием «target».
Следует отметить, что в этой колонке будут ссылки только на дубли, поэтому их будет достаточно легко выделить, с помощью команды в Exсel «заменить» домен на тег «Disallow:», а затем скопировать и внести уже закрытые от индексации ссылки в файл robots.txt.
Естественно, большое количество ссылок удалить вручную в вебмастере будет непросто или даже невозможно, поскольку сервис дает возможность убирать лишь по 1 ссылке за 1 раз. При большом количестве этого можно и не делать, так как при следующем переобходе поисковик их не увидит и со временем удалит.
Заключение
Есть множество возможностей для того, чтобы удалить дубли страниц. Каждый из вышеперечисленных методов эффективен, поэтому какой выбрать, должен решать каждый сам. В любом случае с дублями нужно «бороться», так как это влияет на поисковое продвижение.