Полное руководство по дублированию контента и SEO
Опубликовано: 2022-02-13Дублированный контент относится к контенту, который появляется в Интернете более чем в одном месте. Под «местом» мы подразумеваем страницу с уникальным URL. Это может быть точно такой же или почти такой же контент, и он может быть на том же сайте или на другом сайте.
Технически вы не можете быть оштрафованы Google за дублированный контент, но это может повредить вашему рейтингу в поисковых системах. Это потому, что поисковым системам сложно определить, какое расположение контента является наиболее релевантным. В результате ни один из URL-адресов не имеет высокого рейтинга, и ни одна страница не получает максимально возможную видимость в поиске.
Предполагается, что Google может обнаруживать повторяющийся контент, группировать все URL-адреса в один кластер, а затем выбирать лучший результат. Но это не всегда работает правильно, и может быть выбран неверный URL. В конечном счете, владельцы веб-сайтов могут заметить более низкий рейтинг или снижение трафика из-за дублированного контента. К счастью, есть способы предотвратить подобные вещи с вашими сайтами.
Почему дублированный контент является проблемой
Дублированный контент влияет на поисковые системы и владельцев сайтов несколькими способами:
- Поисковые системы не знают, какие URL включать или не включать в индексы.
- Поисковые системы не знают, должны ли показатели ссылок (авторитет, доверие и т. д.) быть направлены на одну страницу или на несколько страниц.
- Неясно, какой URL-адрес ранжировать в поисковой выдаче (страницы результатов поисковой системы), и иногда нежелательный URL-адрес может превзойти законный.
- Ссылочный вес (авторитет и ценность, которые одна страница передает другой) размывается, потому что другим сайтам, которые хотят включить обратную ссылку на контент, приходится выбирать между несколькими URL-адресами. Затем ссылочный капитал распределяется по дубликатам, а не фокусируется только на одной странице.
Даже с URL-адресами, которые все ведут на ваш веб-сайт, если у одной из ссылок есть атрибуты, которые делают ее недружественной для пользователей, и Google ранжирует эту версию URL-адреса вместо исходной, люди могут не захотеть нажимать на нее. Например, yoursite.com/besttrails выглядит намного привлекательнее, чем yoursite.com/besttrails/?utm_content=buffer&utm_medium=social . Но если Google занимает второе место, потому что считает, что это основная версия дублированного контента, люди не будут нажимать на нее, потому что она выглядит пугающе и ненадежно.
Кроме того, сканирующий «бюджет» вашего веб-сайта расходуется, когда у вас есть дублированный контент. Google сканирует веб-сайты, чтобы найти новый контент, а также периодически повторно сканирует сайты, чтобы узнать, есть ли что-то новое. Если на вашем сайте есть дублированный контент, это означает, что для тщательного сканирования всех страниц потребуется больше времени. Это может привести к тому, что Google будет медленнее индексировать и переиндексировать страницы и показывать их в результатах поиска.
Политика Google в отношении дублированного контента
Согласно Google:
Дублированный контент на сайте не является основанием для принятия мер на этом сайте, если только не представляется, что цель дублированного контента состоит в том, чтобы ввести в заблуждение и манипулировать результатами поисковой системы.
Однако, хотя Google не наказывает владельцев веб-сайтов за большинство случаев дублирования контента, компания продолжает:
В тех редких случаях, когда Google считает, что дублированный контент может быть показан с целью манипулирования нашим рейтингом и обмана наших пользователей, мы также внесем соответствующие коррективы в индексирование и рейтинг соответствующих сайтов. В результате может пострадать рейтинг сайта или сайт может быть полностью удален из индекса Google, и в этом случае он больше не будет отображаться в результатах поиска.
Что Google может считать намерением обмануть пользователей и/или манипулировать рейтингом в поисковых системах? Намеренное создание доменов, поддоменов и страниц с дублирующимся контентом. Кроме того, публиковать скопированный контент, особенно если вы не добавляете к нему ничего ценного.
Однако помните следующее: даже если Google официально не накажет вас и не сочтет ваш дублированный контент вредоносным, это все равно может навредить вашим усилиям по SEO. Если Google остановил ранжирование вашего сайта из-за проблем с дублированием контента, вы можете отправить запрос на пересмотр, как только проблемы будут устранены.
Как происходит дублирование контента
Обычно владелец веб-сайта не будет намеренно создавать дублированный контент. Вот почему Google не наказывает его слишком сильно. В этом также заключается разница между скопированным контентом и дублированным контентом .
Скопированный контент — это когда вы берете точную формулировку с другого сайта и публикуете ее самостоятельно. Дублированный контент — это когда у вас случайно или по незнанию есть другая версия вашего собственного контента где-то еще в Интернете.
Здесь мы рассмотрим распространенные способы дублирования контента в Интернете. После этого поговорим о том, как решить проблему дублированного контента.
HTTP, HTTPS, WWW и не WWW-страницы
Если ваш сайт имеет две разные версии — например, www.yoursite.com и yoursite.com — один и тот же контент будет в обеих версиях сайта, что означает дублирование контента. То же самое верно для сайтов http:// и https:// .
Пагинация
Разбиение на страницы может происходить, когда одна статья или раздел комментариев в блоге занимают несколько страниц. Или, может быть, есть галерея изображений с каждым на отдельной странице. Такое дублирование также может происходить на странице с бесконечной прокруткой, где новый контент появляется по мере того, как пользователь продолжает прокручивать страницу вниз.
Варианты URL
Параметры URL, такие как коды отслеживания , могут непреднамеренно создавать повторяющийся контент. Например, страница на вашем веб-сайте может называться yoursite.com/sneakers , но если у вас есть код отслеживания, чтобы увидеть, откуда люди переходили, она может выглядеть как yoursite.com/newsletter?utm_source=newsletter . Даже если Google и другие поисковые системы не рассматривают этот дублированный контент, вам, возможно, придется иметь дело с отдельными параметрами, создающими несколько записей на ваших аналитических платформах.
Идентификаторы сеанса могут иметь тот же эффект. Сессия — это краткая история того, что посетитель делает на веб-сайте, например, когда он добавляет что-то в свою корзину. Сеанс сохраняется, когда человек переходит на другие страницы, так что его корзина остается нетронутой. Идентификатор сеанса является уникальным модификатором для этого сеанса и иногда сохраняется в URL-адресе (yoursite.com?sessionId=jow8082345hnfn8456). Это может создать несколько разных URL-адресов с одним и тем же содержимым страницы.
То же самое может произойти, если у вас есть версия для печати или мобильная версия контента. Поисковые системы будут думать, что существует несколько страниц с одинаковым содержанием. Потому что… есть.
Это также обычное явление на веб-сайтах электронной коммерции, особенно когда пользователи фильтруют результаты поиска. URL-адрес остается примерно таким же, но с добавлением в конце, например, размером или цветом. Это называется многогранной или фильтрованной навигацией . Контент на страницах практически одинаков, но URL-адреса уникальны.
Даже косая черта в конце может сделать URL-адрес уникальным. Например, yoursite.com/page и yoursite.com/page/ . Самый быстрый способ узнать, не вызывает ли это проблему дублирования контента, — перейти к обеим версиям страницы. Если один не загружается, вам не нужно об этом беспокоиться. В противном случае возможно перенаправление (подробнее об этом чуть позже).

Другие способы дублирования контента
- Описания продуктов электронной коммерции. Различные сайты электронной коммерции часто имеют дублированный контент при использовании описания производителя продукта.
- Страницы с прикрепленными изображениями: когда каждое вложение изображения имеет отдельную страницу, это может привести к дублированию содержимого.
- Страницы результатов поиска: они добавляют параметр к поисковому URL, например yoursite.com?q=search-term .
- Промежуточная среда: это дублированная версия вашего сайта, используемая для тестирования.
- Страницы тегов и категорий. Когда вы используете тег или категорию, WordPress автоматически создает специальные страницы тегов и категорий. Иногда это может привести к дублированию контента, если на одной странице несколько категорий или тегов.
Как исправить дублированный контент
Для некоторых небольших проблем, перечисленных выше, вы можете найти настройку в своем SEO-плагине, которая поможет. Например, в плагине Yoast вы можете отключить URL-адреса страниц вложений для изображений:
WordPress также имеет встроенную опцию для отключения разбиения на страницы комментариев:
Однако в противном случае следующие методы являются основными способами решения проблем с дублированием контента.
1. Найдите повторяющийся контент
Во-первых, вы должны найти экземпляры дублированного контента. Такие инструменты, как аудит сайта Ahrefs и консоль поиска Google, могут сканировать ваш сайт и сообщать вам, есть ли какие-либо предупреждения о дублирующемся содержании.
Если вы пытаетесь найти дублированный контент на своем сайте по определенному ключевому слову, вы можете ввести это в Google:
site:yoursite.com intitle: ключевое слово
После этого вы увидите все страницы вашего веб-сайта, содержащие это ключевое слово. Хорошее эмпирическое правило — искать по определенному ключевому слову, чтобы было легче просматривать результаты.
Если вы считаете, что какая-то конкретная статья была продублирована в другом месте в Интернете, вы можете использовать средство проверки на плагиат, например Grammarly или Copyscape, чтобы найти другие экземпляры предложений с точным соответствием. Или вы можете вставить одно или два полных предложения в Google, чтобы посмотреть, появится ли оно где-то еще, кроме вашего сайта.
2. Скорректируйте URL-адрес Контента с помощью канонизации.
Как только вы узнаете, что в Интернете есть дублированный контент, пришло время определить, какую страницу следует оставить основной.
Вы канонизируете эту основную страницу для поисковых систем. Канонизация сообщает поисковым системам, что URL-адрес является основной версией страницы — что эта страница должна отображаться в результатах поиска вместо любых дубликатов, с которыми может столкнуться поисковая система. Вот два способа канонизировать контент:
301 перенаправление
Создайте редирект 301 с дубликатов страниц на главную страницу. Страницы-дубликаты перестанут конкурировать друг с другом, а главная страница станет более популярной и релевантной, а значит, начнет занимать более высокие позиции. У нас есть статья о том, как создавать перенаправления с помощью WordPress, чтобы помочь вам.
Вы также получаете дополнительное преимущество любого ссылочного веса / авторитета страницы от перенаправленного URL-адреса, который также переносится на новую цель.
Rel=”канонический” Атрибут
Этот атрибут сообщает поисковым системам, что страница является копией URL-адреса и что любые ссылки, показатели и ранжирование должны применяться к указанному основному URL-адресу, а не к скопированной странице. Атрибут должен быть включен в заголовок HTML каждой страницы-дубликата со ссылкой на исходную страницу, на которой вы хотите сосредоточить внимание. У Google есть документация, в которой подробно рассказывается о том, как добавить атрибут, и у нас есть более подробный контент о канонических URL-адресах и WordPress в дополнение к этому.
Чтобы избежать парсинга контента, когда боты копируют, загружают и публикуют содержимое вашего веб-сайта, добавьте атрибут rel="canonical" на свои собственные веб-страницы. Атрибут будет самореферентным — он будет указывать на URL-адрес, по которому он находится в данный момент. Даже если содержимое будет удалено, пока боты переносят полный HTML-код, ваша версия все равно будет считаться оригинальной.
3. Настройте URL-адреса своего домена с помощью консоли поиска Google.
Консоль поиска Google позволяет указать предпочитаемый домен вашего веб-сайта, например, yoursite.com вместо www.yoursite.com . Вы также можете сообщить роботу Googlebot, как обрабатывать различные параметры URL. Это может устранить некоторые или все ваши проблемы с дублированным содержимым. Но только с Гуглом. Не с другими поисковыми системами. Такие платформы, как Bing и Яндекс, имеют собственные инструменты для веб-мастеров.
Дополнительные советы по предотвращению или исправлению дублированного контента
- При добавлении внутренних ссылок используйте одну и ту же версию домена, например, с www или без него. Также всегда используйте одну и ту же версию страницы с завершающей косой чертой или без нее. Неважно, какую структуру вы выберете, но будьте ей последовательны.
- Если вы организуете синдицированный контент, веб-сайт, использующий этот контент, должен добавить обратную ссылку на исходный контент. Не вариант URL. Но оригинальный, основной, канонический URL.
- Не публикуйте пустые страницы в качестве заполнителей. Каждая пустая страница будет проиндексирована, из-за чего поисковая система может подумать, что у вас много дублированного контента.
- Уменьшите количество похожего контента. Например, предположим, что у вас есть юридический веб-сайт, и вы обслуживаете различные округа в вашем районе. Каждая страница конкретного округа может содержать аналогичную информацию, если вы говорите об одной и той же теме права, например о законе о травмах. Один из вариантов — объединить страницу в более крупную страницу, посвященную обоим округам, или вы можете больше разнообразить контент, чтобы страницы оставались отдельными.
Заключительные мысли о дублирующемся контенте
Обнаружение небольшого количества дублированного контента обычно не вызывает беспокойства. Но технические проблемы, затрагивающие сотни или тысячи страниц, необходимо решать. Кроме того, не помешает решить все проблемы с дублированием контента. Это всего лишь часть работы с лаконичным и высокопроизводительным сайтом. В конце концов, последнее, что вы хотите сделать, это конкурировать с самим собой и разрушить свой собственный рейтинг из-за контента, который вы полностью контролируете.
После того, как вы выяснили дублирующийся контент, вы также можете ознакомиться с нашей статьей о том, как справиться с каннибализацией ключевых слов, чтобы предотвратить проблемы с повторяющимися ключевыми словами.
Как вам удалось справиться с дублированием контента на ваших сайтах? Давайте поговорим о реальных стратегиях в комментариях!
Статья с изображением NikAndr / Shutterstock.com