Cum să utilizați un validator de hărți de site pentru a depana erorile

Publicat: 2022-02-01

Trimiterea unei hărți XML a site-ului poate oferi motoarelor de căutare o defalcare completă a fiecărei pagini de site pe care doriți să o indexeze. Prin urmare, este un pas esențial în strategia dvs. de optimizare pentru motoarele de căutare (SEO). Cu toate acestea, pentru cele mai bune rezultate posibile, va trebui să utilizați un validator de hărți de site pentru a vă asigura că nu trimiteți fișiere cu erori.

În acest articol, vom vorbi despre ce sunt validatorii de sitemap și cum funcționează aceștia. Apoi vă vom ghida prin erorile obișnuite pe care le puteți întâlni când utilizați un validator de hărți de site și cum să le depanați. Să ajungem la asta!

Ce este un Sitemap Validator?

O hartă a site-ului este un fișier care conține o listă cu fiecare adresă URL de pe site-ul dvs. pe care doriți să le indexeze motoarele de căutare. Sitemaps-urile vin în format XML sau HTML, prima fiind cea mai populară opțiune.

Din punct de vedere tehnic, nu trebuie să trimiteți o hartă a site-ului dvs. la Google sau la alte motoare de căutare. Aceste platforme folosesc crawlerele pentru a vă naviga pe site, a identifica fiecare adresă URL și a indexa acele pagini. Cu toate acestea, crearea unui sitemap vă oferă control complet asupra adreselor URL pe care motoarele de căutare le indexează și pe care nu ar trebui (cum ar fi conținutul privat sau redundant).

În cele mai multe cazuri, veți utiliza sitemap-uri generate automat. Dacă utilizați WordPress, pluginuri SEO precum Yoast vă pot ajuta să creați sitemap-uri pe care le puteți trimite la Google Search Console:

Setări pentru sitemap Yoast SEO

Un validator de hărți de site este un instrument care poate procesa acele fișiere XML sau HTML și se poate asigura că nu conțin erori. Prin „erori” ne referim la:

  • Pagini pe care motoarele de căutare nu le pot accesa cu crawlere
  • 404 erori
  • 401 erori
  • Prea multe adrese URL în harta site-ului
  • URL-uri non-canonice

Dacă harta dvs. de site conține oricare dintre aceste erori, este posibil ca motoarele de căutare să nu poată indexa fiecare pagină pe care o enumerați. Citirea manuală a fișierelor XML pentru a găsi probleme poate dura mult timp și, de asemenea, trebuie să testați adresele URL. Din fericire, validatorii de hărți de site vă permit să săriți peste toată această muncă și să începeți să remediați orice erori pe care le identifică.

Cum să utilizați un validator de sitemap

Utilizarea unui validator de hartă site este simplă. În funcție de instrumentul pe care îl utilizați, poate fi necesar să încărcați un fișier XML sau să furnizați o adresă URL pentru harta site-ului dvs. Ultima opțiune s-ar putea aplica dacă utilizați un instrument precum XML Sitemap Validator.

Validator XML Sitemap

Introduceți adresa URL pentru harta site-ului pe care doriți să o verificați, iar instrumentul va returna un raport care include orice erori pe care le găsește.

Un raport de validare XML

Dacă obțineți un raport curat fără probleme, motoarele de căutare pot indexa adresele URL din harta site-ului. Puteți trimite harta site-ului în siguranță la Google, Bing, Yandex sau oriunde doriți, fără teamă. Cu toate acestea, dacă întâmpinați erori, va trebui să știți cum să le remediați. Asta ne duce la următoarea secțiune.

5 erori comune ale sitemapului și cum să le remediați

Din păcate, unele sitemap-uri nu se validează perfect, dar vom acoperi unele dintre cele mai frecvente erori pe care validatorii de sitemap-uri le pot găsi în fișierele pe care le trimiteți. Să începem prin a discuta paginile cu „probleme” de accesare cu crawlere.

1. Pagini cu probleme de crawling

Problemele de crawling sunt printre cele mai frecvente probleme pe care validatorii le vor returna. Această eroare înseamnă că serviciul nu a putut accesa cu crawlere una dintre paginile din harta dvs. de site.

În general, atunci când validatorul sau motorul de căutare nu poate accesa cu crawlere o pagină, înseamnă unul dintre următoarele scenarii:

  • Încărcarea paginii durează prea mult. Dacă site-ul dvs. durează prea mult să se încarce, conexiunea cu crawler-ul va expira. Asta înseamnă că unele pagini ar putea să nu fie indexate.
  • Site-ul dvs. folosește prea multe redirecționări. Când redirecționările nu sunt configurate corect, site-ul dvs. poate ajunge într-o buclă de redirecționare. Asta înseamnă că motoarele de căutare nu vor putea să-l acceseze cu crawlere.
  • Site-ul blochează motoarele de căutare să-l acceseze cu crawlere. Puteți configura WordPress să blocheze crawlerele (folosind etichete noindex ), astfel încât site-ul dvs. să nu fie indexat. De obicei, puteți face acest lucru în timp ce vă construiți site-ul sau creați pagini private.
  • Pagina returnează un cod de eroare, altul decât 404 sau 401. Validatorii de sitemap pot analiza erorile 404. Cu toate acestea, alte coduri de eroare HTTP vor avea ca rezultat un avertisment „problemă de crawling”.

Eroarea „probleme de crawling” poate fi ambiguă. Cu toate acestea, puteți determina problema exactă vizitând adresa URL în cauză. Dacă pagina se încarcă rapid și corect, site-ul dvs. ar putea bloca motoarele de căutare să o acceseze cu crawlere.

Dacă pagina se încarcă fără erori, vă recomandăm să testați timpii de încărcare a site-ului dvs. web pentru a vedea dacă există probleme de performanță. În caz contrar, ar trebui să vedeți coduri de eroare specifice sau cazuri de redirecționări multiple.

2. 404 Erori

Erorile 404 dintr-un sitemap sunt ușor de rezolvat. Dacă o pagină nu mai există, puteți elimina manual acea intrare din harta site-ului sau puteți configura o redirecționare pentru aceasta. Cea mai bună opțiune pentru dvs. va depinde de dacă pagina respectivă încă primește trafic.

Analizele site-ului de la Google Search Console și alte servicii vor dezvălui dacă o pagină 404 încă primește vizitatori. În acest scenariu, cel mai bun pariu este să configurați o redirecționare către cea mai apropiată pagină sau postare relevantă, astfel încât să nu pierdeți traficul respectiv. Atâta timp cât utilizați o singură redirecționare, aceasta nu va avea ca rezultat o eroare de validare a sitemapului.

3. 401 Erori

O eroare 401 „neautorizată” într-un sitemap înseamnă că crawlerele nu pot accesa o anumită pagină, deoarece nu au permisiunile necesare. Această eroare apare de obicei atunci când aveți de-a face cu o pagină care solicită utilizatorilor să se conecteze.

O eroare 401 neautorizată

Singura soluție la această eroare este eliminarea paginilor care necesită autorizare din harta site-ului. Orice pagină pe care o pot vedea numai utilizatorii conectați nu ar trebui să fie indexată. În caz contrar, vizitatorii care fac clic pe el în paginile cu rezultate ale motoarelor de căutare (SERPs) se vor afla în fața unei erori 401.

4. Prea multe adrese URL în Sitemap

Motoarele de căutare pot accesa cu crawlere site-uri web masive cu mii de pagini. Cu toate acestea, din experiența noastră, sitemaps-urile încep să afișeze erori dacă enumerați aproape (sau peste) 50.000 de pagini.

Dacă aceasta este situația ta, atunci felicitări pentru efort. 50.000 de pagini este mult . Cu toate acestea, majoritatea site-urilor web cu peste 50.000 de pagini au probabil mai multe adrese URL din conținutul generat de utilizatori. În acest scenariu, doriți să acordați prioritate celor mai importante pagini de pe site-ul dvs. în timp ce eliminați intrările de sitemap pe care utilizatorii ar putea să nu vrea să le vadă în SERP-uri.

5. Adrese URL non-canonice din Harta site-ului

Uneori, motoarele de căutare pot deveni confuze când văd mai multe versiuni ale unei adrese URL pentru aceeași pagină. De exemplu, este posibil să puteți accesa o pagină simplă de blog folosind oricare dintre următoarele adrese URL:

  • http://yourwebsite.com
  • http://www.yourwebsite.com
  • https://yourwebsite.com
  • https://www.yourwebsite.com

În practică, toate acele adrese URL pot duce la aceeași pagină (dacă redirecționați traficul HTTP către HTTPS). Cu toate acestea, motoarele de căutare pot vedea acele adrese URL ca patru intrări diferite într-o hartă a site-ului, ceea ce duce la erori de validare.

Modul simplu de a rezolva această problemă este desemnarea unei adrese URL canonice pentru site-ul dvs. WordPress. Pluginurile SEO, cum ar fi Yoast, vor atribui automat adrese URL canonice pentru site-ul dvs. Dacă utilizați un fișier XML generat de un plugin SEO, nu ar trebui să întâlniți eroarea „non-canonică” atunci când utilizați un validator de hărți de site.

Concluzie

Pe măsură ce site-ul dvs. web crește, utilizarea unei hărți de site devine mai critică. Sitemaps-urile vă permit să spuneți motoarelor de căutare ce pagini ar trebui să le indexeze și pe care să le ignore. În plus, utilizarea unui validator de hărți de site vă va ajuta să identificați erorile, astfel încât crawlerele să nu întâmpine probleme în timpul indexării site-ului dvs.

Pentru a recapitula, cele mai frecvente cinci erori pe care le-ați putea întâlni cu un validator de sitemap sunt:

  1. Pagini cu probleme de accesare cu crawlere: va trebui să verificați timpii de încărcare, redirecționările și să vizitați pagina site-ului dvs. web pentru a determina problema exactă.
  2. Erori 404: această eroare înseamnă că ar trebui să ștergeți pagina inexistentă de pe harta site-ului sau să configurați o redirecționare pentru aceasta.
  3. Erori 401: Luați în considerare eliminarea paginilor restricționate din harta site-ului dvs.
  4. Prea multe adrese URL în harta site-ului: poate fi necesar să fiți selectiv cu privire la paginile din harta site-ului și să le eliminați pe cele mai puțin utile.
  5. Adrese URL non-canonice în harta site-ului: vă recomandăm să configurați o adresă URL canonică pentru anumite pagini.

Aveți întrebări despre utilizarea unui validator de hărți de site? Să vorbim despre ele în secțiunea de comentarii de mai jos!

Imagine prezentată prin hanss / shutterstock.com