Comment utiliser un validateur de sitemap pour résoudre les erreurs
Publié: 2022-02-01La soumission d'un plan de site XML peut fournir aux moteurs de recherche une ventilation complète de chaque page de site Web que vous souhaitez qu'ils indexent. C'est donc une étape essentielle dans votre stratégie d'optimisation pour les moteurs de recherche (SEO). Cependant, pour obtenir les meilleurs résultats possibles, vous devrez utiliser un validateur de sitemap pour vous assurer que vous n'envoyez pas de fichiers contenant des erreurs.
Dans cet article, nous parlerons de ce que sont les validateurs de sitemap et de leur fonctionnement. Ensuite, nous vous guiderons à travers les erreurs courantes que vous pourriez rencontrer lors de l'utilisation d'un validateur de sitemap et comment les résoudre. Allons-y !
Qu'est-ce qu'un validateur de sitemap ?
Un sitemap est un fichier qui contient une liste de toutes les URL de votre site Web que vous souhaitez que les moteurs de recherche indexent. Les plans de site sont au format XML ou HTML, le premier étant l'option la plus populaire.
Techniquement, vous n'avez pas besoin de soumettre un sitemap de votre site Web à Google ou à d'autres moteurs de recherche. Ces plates-formes utilisent des robots d'exploration pour naviguer sur votre site, identifier chaque URL et indexer ces pages. Cependant, la création d'un sitemap vous donne un contrôle total sur les URL indexées par les moteurs de recherche et celles qu'ils ne doivent pas (comme le contenu privé ou redondant).
Dans la plupart des cas, vous utiliserez des sitemaps générés automatiquement. Si vous utilisez WordPress, des plugins SEO tels que Yoast peuvent vous aider à créer des sitemaps que vous pouvez soumettre à Google Search Console :
Un validateur de sitemap est un outil qui peut traiter ces fichiers XML ou HTML et s'assurer qu'ils ne contiennent pas d'erreurs. Par « erreurs », nous entendons :
- Pages que les moteurs de recherche ne peuvent pas explorer
- 404 erreurs
- 401 erreurs
- Trop d'URL dans le sitemap
- URL non canoniques
Si votre sitemap contient l'une de ces erreurs, les moteurs de recherche pourraient ne pas être en mesure d'indexer toutes les pages que vous répertoriez. La lecture manuelle des fichiers XML pour trouver des problèmes peut prendre beaucoup de temps et vous devez également tester les URL. Heureusement, les validateurs de sitemap vous permettent d'ignorer tout ce travail et de commencer à corriger les erreurs qu'ils identifient.
Comment utiliser un validateur de sitemap
L'utilisation d'un validateur de sitemap est simple. Selon l'outil que vous utilisez, vous devrez peut-être télécharger un fichier XML ou fournir une URL vers le plan du site de votre site Web. Cette dernière option peut s'appliquer si vous utilisez un outil tel que XML Sitemap Validator.
Entrez l'URL du sitemap que vous souhaitez vérifier, et l'outil renverra un rapport incluant toutes les erreurs qu'il trouve.
Si vous obtenez un rapport propre sans aucun problème, les moteurs de recherche peuvent indexer les URL dans le plan du site. Vous pouvez soumettre le plan du site en toute sécurité à Google, Bing, Yandex ou où vous voulez sans crainte. Cependant, si vous rencontrez des erreurs, vous devrez savoir comment les corriger. Cela nous amène à la section suivante.
5 erreurs courantes de plan de site et comment les corriger
Malheureusement, certains sitemaps ne sont pas parfaitement validés, mais nous aborderons certaines des erreurs les plus courantes que les validateurs de sitemaps peuvent trouver dans les fichiers que vous leur soumettez. Commençons par discuter des pages présentant des "problèmes" d'exploration.
1. Pages avec des problèmes d'exploration
Les problèmes d'exploration sont parmi les problèmes les plus courants que les validateurs renverront. Cette erreur signifie que le service n'a pas pu explorer l'une des pages de votre sitemap.
Généralement, lorsque le validateur ou le moteur de recherche ne peut pas explorer une page, cela signifie l'un des scénarios suivants :
- La page prend trop de temps à charger. Si votre site Web prend trop de temps à se charger, la connexion avec le crawler expirera. Cela signifie que certaines pages pourraient ne pas être indexées.
- Votre site Web utilise trop de redirections. Lorsque les redirections ne sont pas configurées correctement, votre site Web peut se retrouver dans une boucle de redirection. Cela signifie que les moteurs de recherche ne pourront pas l'explorer.
- Le site Web empêche les moteurs de recherche de l'explorer. Vous pouvez configurer WordPress pour bloquer les robots d'exploration (à l'aide de balises noindex ) afin que votre site Web ne soit pas indexé. En règle générale, vous pouvez le faire lors de la création de votre site ou de la création de pages privées.
- La page renvoie un code d'erreur autre que 404 ou 401. Les validateurs de sitemap peuvent analyser les erreurs 404. Cependant, d'autres codes d'erreur HTTP entraîneront un avertissement de "problème d'exploration".
L'erreur "problèmes d'exploration" peut être ambiguë. Cependant, vous pouvez déterminer le problème exact en visitant l'URL en question. Si la page se charge rapidement et correctement, votre site Web peut empêcher les moteurs de recherche de l'explorer.

Si la page se charge sans erreur, nous vous recommandons de tester les temps de chargement de votre site Web pour voir s'il y a des problèmes de performances. Sinon, vous devriez voir des codes d'erreur spécifiques ou des instances de plusieurs redirections.
2. Erreurs 404
Les erreurs 404 dans un sitemap sont faciles à résoudre. Si une page n'existe plus, vous pouvez supprimer manuellement cette entrée du plan du site ou configurer une redirection pour celle-ci. La meilleure option pour vous dépendra du fait que cette page génère toujours du trafic.
Les analyses de site Web de Google Search Console et d'autres services révéleront si une page 404 reçoit toujours des visiteurs. Dans ce scénario, votre meilleur pari est de configurer une redirection vers la page ou la publication pertinente la plus proche afin de ne pas manquer ce trafic. Tant que vous utilisez une seule redirection, cela n'entraînera pas d'erreur de validation du sitemap.
3. Erreurs 401
Une erreur 401 "non autorisé" dans un sitemap signifie que les robots d'exploration ne peuvent pas accéder à une page spécifique car ils ne disposent pas des autorisations nécessaires. Cette erreur apparaît généralement lorsque vous avez affaire à une page qui oblige les utilisateurs à se connecter.
La seule solution à cette erreur consiste à supprimer les pages nécessitant une autorisation du sitemap. Toute page que seuls les utilisateurs connectés peuvent voir ne doit pas être indexée. Sinon, les visiteurs qui cliquent dessus dans les pages de résultats des moteurs de recherche (SERP) se retrouveront face à une erreur 401.
4. Trop d'URL dans le plan du site
Les moteurs de recherche peuvent explorer des sites Web massifs avec des milliers de pages. Cependant, d'après notre expérience, les sitemaps commencent à afficher des erreurs si vous répertoriez près de (ou plus) 50 000 pages.
Si c'est votre situation, alors bravo pour l'effort. 50 000 pages c'est beaucoup . Cependant, la plupart des sites Web de plus de 50 000 pages ont probablement plusieurs URL à partir de contenu généré par les utilisateurs. Dans ce scénario, vous souhaitez donner la priorité aux pages les plus importantes de votre site tout en supprimant les entrées de plan de site que les utilisateurs pourraient ne pas vouloir voir dans les SERP.
5. URL non canoniques dans le sitemap
Parfois, les moteurs de recherche peuvent être confus lorsqu'ils voient plusieurs versions d'une URL pour la même page. Par exemple, vous pourrez peut-être accéder à une simple page de blog à l'aide de l'une des URL suivantes :
- http://votresiteweb.com
- http://www.votresiteweb.com
- https://votresiteweb.com
- https://www.votresiteweb.com
En pratique, toutes ces URL peuvent mener à la même page (si vous redirigez le trafic HTTP vers HTTPS). Cependant, les moteurs de recherche peuvent voir ces URL comme quatre entrées différentes dans un sitemap, ce qui entraîne des erreurs de validation.
Le moyen simple de résoudre ce problème consiste à désigner une URL canonique pour votre site Web WordPress. Les plugins SEO tels que Yoast attribueront automatiquement des URL canoniques à votre site. Si vous utilisez un fichier XML généré par un plugin SEO, vous ne devriez pas rencontrer l'erreur "non canonique" lors de l'utilisation d'un validateur de sitemap.
Conclusion
Au fur et à mesure que votre site Web se développe, l'utilisation d'un sitemap devient plus critique. Les sitemaps vous permettent d'indiquer aux moteurs de recherche quelles pages ils doivent indexer et lesquelles ignorer. De plus, l'utilisation d'un validateur de sitemap vous aidera à repérer les erreurs afin que les robots d'indexation ne rencontrent pas de problèmes lors de l'indexation de votre site Web.
Pour récapituler, les cinq erreurs les plus courantes que vous pourriez rencontrer avec un validateur de sitemap sont :
- Pages avec des problèmes d'exploration : vous devrez vérifier vos temps de chargement, vos redirections et visiter la page de votre site Web pour déterminer le problème exact.
- Erreurs 404 : cette erreur signifie que vous devez supprimer la page inexistante de votre sitemap ou configurer une redirection pour celle-ci.
- Erreurs 401 : pensez à supprimer les pages restreintes de votre sitemap.
- Trop d'URL dans le sitemap : vous devrez peut-être être sélectif sur les pages de votre sitemap et supprimer celles qui sont moins utiles.
- URL non canoniques dans le sitemap : nous vous recommandons de configurer une URL canonique pour des pages spécifiques.
Avez-vous des questions sur l'utilisation d'un validateur de sitemap ? Parlons d'eux dans la section des commentaires ci-dessous!
Image sélectionnée via hanss / shutterstock.com