Дубли страниц на сайте: чем они опасны и как удалить

дубли страницДубли страниц – одинаковые документы, доступ к которым можно получить через несколько URL-адресов. Стоит отметить, что дублям страниц, в основном, подвержены различные CMS. Они безвредны до момента, пока не попадут в индекс. Индексацию необходимо отслеживать и незамедлительно реагировать, если что-то лишнее туда попало. В этой статье мы рассмотрим не только вопрос того, как удалить дубли страниц на сайте, но и как продумать оптимальную структуру интернет-ресурса.

 

Часто встречающиеся ошибки

Допустим, на сайте создана категория «job online», к ней привязан ряд других подкатегорий – «Copywriting», «Forex», и уже к последним - материалы. Если будет создан пункт меню лишь для подкатегорий, к примеру, «Copywriting», то могут появиться дополнительные ссылки, ведущие к контенту, такие как:

https://forexaccess.ru/copywriting/24-seo

https:// forexaccess.ru/1-job-online/copywriting/24-seo

https://forexaccess.ru/1-job-online/2-copywriting/24-seo

https://forexaccess.ru/index.php?option=com_content&task=view&id=24&Itemid=1 и т.д.

То есть, для формирования Url появляется множество возможностей. Все вышеперечисленные адреса будут вести к одной страничке. Описанное показывает, как чаще всего происходит. Помимо этого, поисковики могут брать в индекс и технические копии, переходя по ссылкам "Print", "PDF", "Send to afriend". Поэтому так важно продумать структуру заранее, определив главные категории и подкатегории. Когда ресурс начнет расти можно добавлять дополнительные разделы, не меняя существующей структуры.

Важно знать, что реструктуризация веб-площадки на пике разработки – это провал. Ему будет способствовать изменение Url-ов некоторых страниц, в худшем случае всех. А если все они были проиндексированы ранее, то и останутся «висеть» под старыми адресами, то есть будут недоступны. Это приведет к снижению рейтинга в результатах поиска и падению в несколько раз посещаемости.

 

Как появляются дубли страниц и как попадают в поисковые системы?

Изучая вопрос того, как удалить дубли страниц на сайте, стоит рассмотреть и причины, по которым они появляются. В некоторых случаях дубли страниц становятся видны в карте веб-сайта. Следует отметить, что на проиндексированном ресурсе проще отыскать дублированный контент. Для этого нужно скопировать уникальный материал со странички, заключить в кавычки и вставить в поисковую строку. Поисковик моментально выдаст все адреса, по которым можно отыскать статью. Если их несколько, то это будет свидетельствовать о наличии дублей страниц. Что касается неиндексированного ресурса, то проверить его можно на XENU.

 

Зачем закрывать доступ к дублям страниц?

Поисковые машины не индексируют веб-сайты с большим числом идентичных страничек, потому как выбирают наиболее релевантные. Если у последних имеются дубли, то при обновлении поисковики могут попросту «выкинуть» релевантные и на их место установить дубли, что, как правило, приводит к падению позиций веб-площадки и понижению трафика.

 

5 популярных решений по удалению дублей страниц

Все они подходят для любых CMS и валидны, если на вебсайте включен SEF и перенаправление страничек.

 

1. Robots.txt

Находится в корневой папке движка. Просмотреть его можно, введя адрес сайта/robots.txt. Файл показывает поисковикам, как ресурс должен индексироваться. С помощью Robots.txt можно закрывать определенные части площадки. Для этого всего-то следует прописать перед ними Disallow: /

Принятие решения по использованию этой команды лежит полностью на владельце вебсайта. Слишком длинный Robots.txt воспринимается как полностью разрешающим. Disallow: /*? не должна ограничивать доступ к чему-то полезному, типа карты ресурса, поэтому перед ней лучше прописать Allow: /.

 

2. Redirect 301

Redirect 301 применяется, если были поменяны пути к страничкам (адреса). Для привязки их к источнику данных следует воспользоваться redirect 301. Все его команды должны быть прописаны в файле «.htaccess». Это позволит поисковым машинам понять, что страничка была перемещена и лежит в другом месте с доступом по новому адресу. Данный метод никак не влияет на посещаемость и PR, то есть последние остаются на прежнем уровне.

301 redirect помогает склеивать и дубли страниц. Его часто используют, когда требуется «главную» с приставкой к адресу /index.php привязать с стандартному URL (без приставки). Для этого необходимо открыть «.htaccess» и ввести туда

Redirect 301 /index.php http://forexaccess.ru/

Тут же рекомендуется произвести «склейку» url-ов с www и без.

RewriteEngine On

RewriteCond %{HTTP_HOST} ^www.example.com$ [NC]

RewriteRule ^(.*)$ http://forexaccess.ru/$1 [R=301,L]

 

3. Мета-тег Robots

Еще один неплохой варинат для закрытия дотупа от индексации к дублям страниц.

<meta name="robots" content="noindex" />

 

4. Ручное удаление дублей из панели Вебмастера

Если это Google, то сделать это можно, перейдя по ссылке:

https://www.google.com/webmasters/tools/home?hl=ru

Если Яндекс, то:

http://webmaster.yandex.ru/delurl.xml

 

5. Тег X-Robots-Tag

Является альтернативой 4 методу. Его рекомендует применять Google.

HTTP/1.1 200 OK

Date: Tue, 25 May 2015 21:42:43 GMT

...

X-Robots-Tag: noindex

...

 

Как удалить дубли страниц, если их слишком много на сайте?

Нужно зайти в https://webmaster.yandex.ru/, выбрать из списка сайт, затем пройти по пути «индексирование» - «страницы в поиске» и в самом низу найти и скачать таблицу со ссылками в файле XLS (рекомендовано) или CSV.

Затем потребуется открыть его на ПК. В нем будет несколько колонок. Дубли страниц Joomla будут помечены словом «DUPLICATE», а находящиеся в поиске -«SEARCHABLE» в колонке под названием «status». Что касается адресов, то их можно будет увидеть в колонке под названием «target».

Следует отметить, что в этой колонке будут ссылки только на дубли, поэтому их будет достаточно легко выделить, с помощью команды в Exсel «заменить» домен на тег «Disallow:», а затем скопировать и внести уже закрытые от индексации ссылки в файл robots.txt.

Естественно, большое количество ссылок удалить вручную в вебмастере будет непросто или даже невозможно, поскольку сервис дает возможность убирать лишь по 1 ссылке за 1 раз. При большом количестве этого можно и не делать, так как при следующем переобходе поисковик их не увидит и со временем удалит.

 

 

Заключение

Есть множество возможностей для того, чтобы удалить дубли страниц. Каждый из вышеперечисленных методов эффективен, поэтому какой выбрать, должен решать каждый сам. В любом случае с дублями нужно «бороться», так как это влияет на поисковое продвижение.

 


 

Другие статьи по теме:

 


 

гарантии

Авторы ForexAccess.ru не несут ответственность за действия проектов/компаний, описанных на ресурсе. Все материалы, опубликованные на сайте, носят исключительно информационный характер.

авторские права

Все материалы, размещенные на ForexAccess.ru являются интеллектуальной собственностью авторов. Запрещена перепечатка, либо иное использование материалов без разрешения правообладателя. В случае использования статей, обязательна ссылка на ForexAccess.ru

Обратная связь

По вопросам о размещении рекламы на ForexAccess.ru, обращайтесь к нам через .
forexaccess
forexaccess
Яндекс.Метрика