Полное руководство по дублированию контента и SEO

Опубликовано: 2022-02-13

Дублированный контент относится к контенту, который появляется в Интернете более чем в одном месте. Под «местом» мы подразумеваем страницу с уникальным URL. Это может быть точно такой же или почти такой же контент, и он может быть на том же сайте или на другом сайте.

Технически вы не можете быть оштрафованы Google за дублированный контент, но это может повредить вашему рейтингу в поисковых системах. Это потому, что поисковым системам сложно определить, какое расположение контента является наиболее релевантным. В результате ни один из URL-адресов не имеет высокого рейтинга, и ни одна страница не получает максимально возможную видимость в поиске.

Предполагается, что Google может обнаруживать повторяющийся контент, группировать все URL-адреса в один кластер, а затем выбирать лучший результат. Но это не всегда работает правильно, и может быть выбран неверный URL. В конечном счете, владельцы веб-сайтов могут заметить более низкий рейтинг или снижение трафика из-за дублированного контента. К счастью, есть способы предотвратить подобные вещи с вашими сайтами.

Почему дублированный контент является проблемой

Дублированный контент влияет на поисковые системы и владельцев сайтов несколькими способами:

  • Поисковые системы не знают, какие URL включать или не включать в индексы.
  • Поисковые системы не знают, должны ли показатели ссылок (авторитет, доверие и т. д.) быть направлены на одну страницу или на несколько страниц.
  • Неясно, какой URL-адрес ранжировать в поисковой выдаче (страницы результатов поисковой системы), и иногда нежелательный URL-адрес может превзойти законный.
  • Ссылочный вес (авторитет и ценность, которые одна страница передает другой) размывается, потому что другим сайтам, которые хотят включить обратную ссылку на контент, приходится выбирать между несколькими URL-адресами. Затем ссылочный капитал распределяется по дубликатам, а не фокусируется только на одной странице.

Даже с URL-адресами, которые все ведут на ваш веб-сайт, если у одной из ссылок есть атрибуты, которые делают ее недружественной для пользователей, и Google ранжирует эту версию URL-адреса вместо исходной, люди могут не захотеть нажимать на нее. Например, yoursite.com/besttrails выглядит намного привлекательнее, чем yoursite.com/besttrails/?utm_content=buffer&utm_medium=social . Но если Google занимает второе место, потому что считает, что это основная версия дублированного контента, люди не будут нажимать на нее, потому что она выглядит пугающе и ненадежно.

Кроме того, сканирующий «бюджет» вашего веб-сайта расходуется, когда у вас есть дублированный контент. Google сканирует веб-сайты, чтобы найти новый контент, а также периодически повторно сканирует сайты, чтобы узнать, есть ли что-то новое. Если на вашем сайте есть дублированный контент, это означает, что для тщательного сканирования всех страниц потребуется больше времени. Это может привести к тому, что Google будет медленнее индексировать и переиндексировать страницы и показывать их в результатах поиска.

Политика Google в отношении дублированного контента

Согласно Google:

Дублированный контент на сайте не является основанием для принятия мер на этом сайте, если только не представляется, что цель дублированного контента состоит в том, чтобы ввести в заблуждение и манипулировать результатами поисковой системы.

Однако, хотя Google не наказывает владельцев веб-сайтов за большинство случаев дублирования контента, компания продолжает:

В тех редких случаях, когда Google считает, что дублированный контент может быть показан с целью манипулирования нашим рейтингом и обмана наших пользователей, мы также внесем соответствующие коррективы в индексирование и рейтинг соответствующих сайтов. В результате может пострадать рейтинг сайта или сайт может быть полностью удален из индекса Google, и в этом случае он больше не будет отображаться в результатах поиска.

Что Google может считать намерением обмануть пользователей и/или манипулировать рейтингом в поисковых системах? Намеренное создание доменов, поддоменов и страниц с дублирующимся контентом. Кроме того, публиковать скопированный контент, особенно если вы не добавляете к нему ничего ценного.

Однако помните следующее: даже если Google официально не накажет вас и не сочтет ваш дублированный контент вредоносным, это все равно может навредить вашим усилиям по SEO. Если Google остановил ранжирование вашего сайта из-за проблем с дублированием контента, вы можете отправить запрос на пересмотр, как только проблемы будут устранены.

Как происходит дублирование контента

Обычно владелец веб-сайта не будет намеренно создавать дублированный контент. Вот почему Google не наказывает его слишком сильно. В этом также заключается разница между скопированным контентом и дублированным контентом .

Скопированный контент — это когда вы берете точную формулировку с другого сайта и публикуете ее самостоятельно. Дублированный контент — это когда у вас случайно или по незнанию есть другая версия вашего собственного контента где-то еще в Интернете.

Здесь мы рассмотрим распространенные способы дублирования контента в Интернете. После этого поговорим о том, как решить проблему дублированного контента.

HTTP, HTTPS, WWW и не WWW-страницы

Если ваш сайт имеет две разные версии — например, www.yoursite.com и yoursite.com — один и тот же контент будет в обеих версиях сайта, что означает дублирование контента. То же самое верно для сайтов http:// и https:// .

Пагинация

Разбиение на страницы может происходить, когда одна статья или раздел комментариев в блоге занимают несколько страниц. Или, может быть, есть галерея изображений с каждым на отдельной странице. Такое дублирование также может происходить на странице с бесконечной прокруткой, где новый контент появляется по мере того, как пользователь продолжает прокручивать страницу вниз.

Варианты URL

Параметры URL, такие как коды отслеживания , могут непреднамеренно создавать повторяющийся контент. Например, страница на вашем веб-сайте может называться yoursite.com/sneakers , но если у вас есть код отслеживания, чтобы увидеть, откуда люди переходили, она может выглядеть как yoursite.com/newsletter?utm_source=newsletter . Даже если Google и другие поисковые системы не рассматривают этот дублированный контент, вам, возможно, придется иметь дело с отдельными параметрами, создающими несколько записей на ваших аналитических платформах.

Идентификаторы сеанса могут иметь тот же эффект. Сессия — это краткая история того, что посетитель делает на веб-сайте, например, когда он добавляет что-то в свою корзину. Сеанс сохраняется, когда человек переходит на другие страницы, так что его корзина остается нетронутой. Идентификатор сеанса является уникальным модификатором для этого сеанса и иногда сохраняется в URL-адресе (yoursite.com?sessionId=jow8082345hnfn8456). Это может создать несколько разных URL-адресов с одним и тем же содержимым страницы.

То же самое может произойти, если у вас есть версия для печати или мобильная версия контента. Поисковые системы будут думать, что существует несколько страниц с одинаковым содержанием. Потому что… есть.

Это также обычное явление на веб-сайтах электронной коммерции, особенно когда пользователи фильтруют результаты поиска. URL-адрес остается примерно таким же, но с добавлением в конце, например, размером или цветом. Это называется многогранной или фильтрованной навигацией . Контент на страницах практически одинаков, но URL-адреса уникальны.

Даже косая черта в конце может сделать URL-адрес уникальным. Например, yoursite.com/page и yoursite.com/page/ . Самый быстрый способ узнать, не вызывает ли это проблему дублирования контента, — перейти к обеим версиям страницы. Если один не загружается, вам не нужно об этом беспокоиться. В противном случае возможно перенаправление (подробнее об этом чуть позже).

Другие способы дублирования контента

  • Описания продуктов электронной коммерции. Различные сайты электронной коммерции часто имеют дублированный контент при использовании описания производителя продукта.
  • Страницы с прикрепленными изображениями: когда каждое вложение изображения имеет отдельную страницу, это может привести к дублированию содержимого.
  • Страницы результатов поиска: они добавляют параметр к поисковому URL, например yoursite.com?q=search-term .
  • Промежуточная среда: это дублированная версия вашего сайта, используемая для тестирования.
  • Страницы тегов и категорий. Когда вы используете тег или категорию, WordPress автоматически создает специальные страницы тегов и категорий. Иногда это может привести к дублированию контента, если на одной странице несколько категорий или тегов.

Как исправить дублированный контент

Для некоторых небольших проблем, перечисленных выше, вы можете найти настройку в своем SEO-плагине, которая поможет. Например, в плагине Yoast вы можете отключить URL-адреса страниц вложений для изображений:

дублированный контент

WordPress также имеет встроенную опцию для отключения разбиения на страницы комментариев:

дублированный контент

Однако в противном случае следующие методы являются основными способами решения проблем с дублированием контента.

1. Найдите повторяющийся контент

Во-первых, вы должны найти экземпляры дублированного контента. Такие инструменты, как аудит сайта Ahrefs и консоль поиска Google, могут сканировать ваш сайт и сообщать вам, есть ли какие-либо предупреждения о дублирующемся содержании.

Если вы пытаетесь найти дублированный контент на своем сайте по определенному ключевому слову, вы можете ввести это в Google:

site:yoursite.com intitle: ключевое слово

После этого вы увидите все страницы вашего веб-сайта, содержащие это ключевое слово. Хорошее эмпирическое правило — искать по определенному ключевому слову, чтобы было легче просматривать результаты.

Если вы считаете, что какая-то конкретная статья была продублирована в другом месте в Интернете, вы можете использовать средство проверки на плагиат, например Grammarly или Copyscape, чтобы найти другие экземпляры предложений с точным соответствием. Или вы можете вставить одно или два полных предложения в Google, чтобы посмотреть, появится ли оно где-то еще, кроме вашего сайта.

2. Скорректируйте URL-адрес Контента с помощью канонизации.

Как только вы узнаете, что в Интернете есть дублированный контент, пришло время определить, какую страницу следует оставить основной.

Вы канонизируете эту основную страницу для поисковых систем. Канонизация сообщает поисковым системам, что URL-адрес является основной версией страницы — что эта страница должна отображаться в результатах поиска вместо любых дубликатов, с которыми может столкнуться поисковая система. Вот два способа канонизировать контент:

301 перенаправление

Создайте редирект 301 с дубликатов страниц на главную страницу. Страницы-дубликаты перестанут конкурировать друг с другом, а главная страница станет более популярной и релевантной, а значит, начнет занимать более высокие позиции. У нас есть статья о том, как создавать перенаправления с помощью WordPress, чтобы помочь вам.

Вы также получаете дополнительное преимущество любого ссылочного веса / авторитета страницы от перенаправленного URL-адреса, который также переносится на новую цель.

Rel=”канонический” Атрибут

Этот атрибут сообщает поисковым системам, что страница является копией URL-адреса и что любые ссылки, показатели и ранжирование должны применяться к указанному основному URL-адресу, а не к скопированной странице. Атрибут должен быть включен в заголовок HTML каждой страницы-дубликата со ссылкой на исходную страницу, на которой вы хотите сосредоточить внимание. У Google есть документация, в которой подробно рассказывается о том, как добавить атрибут, и у нас есть более подробный контент о канонических URL-адресах и WordPress в дополнение к этому.

Чтобы избежать парсинга контента, когда боты копируют, загружают и публикуют содержимое вашего веб-сайта, добавьте атрибут rel="canonical" на свои собственные веб-страницы. Атрибут будет самореферентным — он будет указывать на URL-адрес, по которому он находится в данный момент. Даже если содержимое будет удалено, пока боты переносят полный HTML-код, ваша версия все равно будет считаться оригинальной.

3. Настройте URL-адреса своего домена с помощью консоли поиска Google.

Консоль поиска Google позволяет указать предпочитаемый домен вашего веб-сайта, например, yoursite.com вместо www.yoursite.com . Вы также можете сообщить роботу Googlebot, как обрабатывать различные параметры URL. Это может устранить некоторые или все ваши проблемы с дублированным содержимым. Но только с Гуглом. Не с другими поисковыми системами. Такие платформы, как Bing и Яндекс, имеют собственные инструменты для веб-мастеров.

Дополнительные советы по предотвращению или исправлению дублированного контента

  1. При добавлении внутренних ссылок используйте одну и ту же версию домена, например, с www или без него. Также всегда используйте одну и ту же версию страницы с завершающей косой чертой или без нее. Неважно, какую структуру вы выберете, но будьте ей последовательны.
  2. Если вы организуете синдицированный контент, веб-сайт, использующий этот контент, должен добавить обратную ссылку на исходный контент. Не вариант URL. Но оригинальный, основной, канонический URL.
  3. Не публикуйте пустые страницы в качестве заполнителей. Каждая пустая страница будет проиндексирована, из-за чего поисковая система может подумать, что у вас много дублированного контента.
  4. Уменьшите количество похожего контента. Например, предположим, что у вас есть юридический веб-сайт, и вы обслуживаете различные округа в вашем районе. Каждая страница конкретного округа может содержать аналогичную информацию, если вы говорите об одной и той же теме права, например о законе о травмах. Один из вариантов — объединить страницу в более крупную страницу, посвященную обоим округам, или вы можете больше разнообразить контент, чтобы страницы оставались отдельными.

Заключительные мысли о дублирующемся контенте

Обнаружение небольшого количества дублированного контента обычно не вызывает беспокойства. Но технические проблемы, затрагивающие сотни или тысячи страниц, необходимо решать. Кроме того, не помешает решить все проблемы с дублированием контента. Это всего лишь часть работы с лаконичным и высокопроизводительным сайтом. В конце концов, последнее, что вы хотите сделать, это конкурировать с самим собой и разрушить свой собственный рейтинг из-за контента, который вы полностью контролируете.

После того, как вы выяснили дублирующийся контент, вы также можете ознакомиться с нашей статьей о том, как справиться с каннибализацией ключевых слов, чтобы предотвратить проблемы с повторяющимися ключевыми словами.

Как вам удалось справиться с дублированием контента на ваших сайтах? Давайте поговорим о реальных стратегиях в комментариях!

Статья с изображением NikAndr / Shutterstock.com