Se pubblichi una pagina sul tuo sito web, Google la indicizzerà e la classificherà?

Non necessariamente!

In effetti, i nostri dati indicano che Google perde circa la metà delle pagine sui grandi siti web.

Affinché una pagina venga visualizzata nei risultati di ricerca e attiri il traffico verso il tuo sito, Google deve prima eseguirne la scansione. Nelle stesse parole di Google , “La scansione è il punto di ingresso dei siti nei risultati di ricerca di Google”.

Tuttavia, poiché Google non ha tempo e risorse illimitati per eseguire la scansione di ogni pagina sul Web in ogni momento, non tutte le pagine verranno sottoposte a scansione.

Questo è ciò che i SEO chiamano crawl budget e ottimizzarlo può essere la chiave per la crescita del tuo sito web aziendale.

Cos’è il crawl budget?

Il budget di scansione è il numero massimo di pagine che un motore di ricerca può e desidera scansionare su un determinato sito web. Google determina il budget di scansione valutando il limite di velocità di scansione e la domanda di scansione.

  • Limite della velocità di scansione: la velocità delle tue pagine, gli errori di scansione e il limite di scansione impostato in Google Search Console (i proprietari di siti web hanno la possibilità di ridurre la scansione del proprio sito da parte di Googlebot) possono influire sul limite della frequenza di scansione.
  • Domanda di scansione: la popolarità delle tue pagine e quanto sono fresche o obsolete possono influire sulla tua domanda di scansione.

La storia del crawl budget

Già nel 2009 , Google ha riconosciuto di poter trovare solo una percentuale dei contenuti online e ha incoraggiato i webmaster a ottimizzare per il crawl budget.

“ Internet è un posto grande ; nuovi contenuti vengono creati continuamente. Google ha un numero limitato di risorse, quindi di fronte alla quantità quasi infinita di contenuti disponibili online, Googlebot è in grado di trovare e scansionare solo una percentuale di tali contenuti. Quindi, del contenuto che abbiamo scansionato, siamo in grado di indicizzare solo una parte”.

SEO e webmaster hanno iniziato a parlare sempre di più di crawl budget, il che ha spinto Google nel 2017 a pubblicare il post ” Cosa significa il crawl budget per Googlebot “. Questo post ha chiarito come Google pensa al crawl budget e come lo calcola.

Devo preoccuparmi del crawl budget?

Se lavori su siti Web più piccoli, il crawl budget potrebbe non essere qualcosa di cui devi preoccuparti.

Secondo Google, “Il crawl budget non è qualcosa di cui la maggior parte degli editori deve preoccuparsi. Se un sito ha meno di qualche migliaio di URL, la maggior parte delle volte verrà scansionato in modo efficiente”.

Tuttavia, se lavori su siti Web di grandi dimensioni, in particolare quelli che generano automaticamente pagine in base ai parametri URL , potresti voler dare la priorità alle attività che aiutano Google a capire cosa scansionare e quando.

Come posso controllare il mio crawl budget?

Indipendentemente dal fatto che lavori su un sito con mille o un milione di URL, invece di crederci sulla parola di Google, probabilmente vorrai verificare tu stesso se hai un problema con il crawl budget.

Il modo migliore per controllare il budget di scansione e scoprire se a Google mancano alcune delle tue pagine è confrontare il numero totale di pagine nell’architettura del tuo sito con il numero di pagine scansionate da Googlebot.

Ciò richiede un crawler del sito e un analizzatore di file di registro .

Usa l’analisi dei log con la segmentazione degli URL

Dai file di registro, puoi vedere il numero di URL che Google esegue la scansione del tuo sito ogni mese. Questo è il tuo budget di scansione di Google.

Combina i tuoi file di registro con una scansione completa del sito per capire come viene speso il tuo budget di scansione. Segmenta i dati per tipo di pagina per mostrare quali sezioni del tuo sito vengono scansionate dai motori di ricerca e con quale frequenza.

Come vengono scansionate le sezioni più importanti del tuo sito?

Usa il diagramma di Venn di Crawls

Uno dei modi migliori per vedere, ad alto livello, il rapporto tra le pagine che Googlebot sta scansionando e non sottoposte a scansione è il Crawls Venn Diagram.

Le pagine scansionate da Google rappresentano solo possibili margini di miglioramento per quanto riguarda il budget di scansione. Se quelle pagine non sono collegate a nessuna parte del tuo sito, ma Google le sta ancora trovando ed eseguendo la scansione, potresti sprecare parte del tuo budget di scansione.

Il rapporto di scansione varia notevolmente in base al sito. In tutti i settori, per i siti non ottimizzati, una media di solo il 40% degli URL strategici viene scansionato da Google ogni mese. Si tratta del 60% delle pagine di un sito di cui non viene eseguita la scansione regolare e potenzialmente non vengono indicizzate o servite agli utenti che effettuano ricerche.

Ciò offre un valido business case per misurare e ottimizzare il budget di scansione.

Che cos’è l’ottimizzazione del crawl budget?

L’ottimizzazione del budget di scansione è il processo che aiuta Googlebot e altri motori di ricerca a eseguire la scansione e l’indicizzazione di più contenuti importanti.

Ci sono tre modi principali per farlo:

  • Tenere Google e altri motori di ricerca lontani dalle pagine che non si desidera indicizzare
  • Aiutandoli a trovare i tuoi contenuti importanti più velocemente
  • Migliorare la popolarità e la freschezza delle tue pagine importanti

Diamo un’occhiata a come potrebbe essere esattamente in pratica.

Come posso ottimizzare il mio crawl budget?

L’ottimizzazione del crawl budget può riguardare tanto l’aumento del crawl budget (cioè far sì che Google dedichi più tempo al proprio sito) quanto il far sì che Google trascorri il tempo che ha già assegnato al tuo sito in modo più saggio.

1. Impedire a Google di eseguire la scansione dei tuoi URL non canonici

Se non hai familiarità, i tag canonici indicano a Google quale versione di una pagina è la versione principale preferita.

Ad esempio, supponiamo che tu abbia una pagina di categoria di prodotto per “jeans da donna” situata in /abbigliamento/donne/jeans e che quella pagina consenta ai visitatori di ordinare per prezzo: dal basso al più alto.

Ciò potrebbe modificare l’URL in /clothing/women/jeans?sortBy=PriceLow. Mettere i jeans in un ordine diverso non ha cambiato il contenuto della pagina, quindi non vorresti che /clothing/women/jeans?sortBy=PriceLow e /clothing/women/jeans fossero entrambi indicizzati.

Probabilmente aggiungeresti un tag canonico su /clothing/women/jeans?sortBy=PriceLow, indicando che /clothing/women/jeans è la versione principale di quella pagina e l’altra versione è un duplicato. La stessa cosa vale per i parametri URL aggiunti come identificatori di sessione.

Anche se gli URL indicizzabili erano solo circa 25.000, Google è riuscito a eseguire la scansione solo per poco più della metà nel corso di un mese. Come possiamo vedere di seguito, il budget di scansione di Google consentiva più del numero totale di URL indicizzabili, ma il resto del budget è stato speso per URL non indicizzabili.

Questo è un peccato poiché il sito avrebbe potuto potenzialmente raggiungere un rapporto di scansione vicino al 100%, rendendo più probabile che più pagine indirizzerebbe il traffico. Un altro possibile risultato dell’omissione di questa massa di URL non canonici dalla scansione è che più pagine potrebbero essere scansionate più frequentemente e scopriamo che le pagine scansionate più frequentemente tendono a produrre più visite.

Google ha definito questo problema uno spreco di crawl budget anni fa, eppure esiste ancora come un grave problema per la SEO.

? La soluzione? Usa il tuo file robots.txt per indicare ai motori di ricerca cosa non eseguire la scansione

Sprecare le risorse del server su questi tipi di pagine prosciugherà l’attività di scansione dalle pagine che hanno effettivamente un valore, il che potrebbe impedire o ritardare a Google la scoperta dei tuoi fantastici contenuti.

Utilizzando il file robots.txt del tuo sito, puoi dire ai bot dei motori di ricerca cosa scansionare e cosa ignorare. Se non hai familiarità, i file robots.txt risiedono nella radice dei siti Web e hanno il seguente aspetto:

Visita la documentazione di Google per ulteriori informazioni sulla creazione di file robots.txt .

In che modo questi file aiutano a preservare il tuo budget di scansione?

Per utilizzare lo stesso esempio di un grande sito di e-commerce con una navigazione a faccette che ti consente di ordinare i contenuti senza modificarli (ad es. ordinamento per prezzo, dal più basso al più alto), puoi utilizzare il tuo robots.txt per impedire ai motori di ricerca di scansionarli ordina le pagine perché sono duplicati della pagina originale. Non vuoi che i motori di ricerca perdano tempo su di loro poiché non li vuoi comunque nell’indice.

Il tuo file robots.txt può essere un passo importante da compiere per indirizzare i motori di ricerca lontano dai tuoi contenuti non importanti e verso i tuoi contenuti critici.

È importante notare che disabilitare i motori di ricerca da determinate sezioni o pagine del tuo sito non garantisce che i motori di ricerca non indicizzino quelle pagine. Se sono presenti collegamenti a quelle pagine altrove, ad esempio nel contenuto o nella mappa del sito, i motori di ricerca potrebbero comunque trovarli e indicizzarli. Vedi il passaggio n. 3 per ulteriori informazioni.

2. Migliorare i tempi di caricamento della pagina ottimizzando il tuo JavaScript

Se il tuo sito web fa un uso massiccio di JavaScript, potresti sprecare il tuo budget di scansione in file JavaScript e chiamate API.

Considera questo esempio.

Un cliente con un sito Web aziendale di grandi dimensioni è passato dal rendering lato client al rendering lato server (SSR) . Quasi immediatamente, dall’analisi dei file di registro abbiamo potuto vedere che Google trascorreva più tempo sui contenuti critici del sito web. Poiché Google stava ricevendo la pagina completamente caricata dal server, non era necessario che dedicasse tempo ai file JavaScript e alle chiamate API.

Sebbene JavaScript non sia l’unica cosa che può portare a tempi di caricamento della pagina lenti , spesso aggiunge secondi di tempo di caricamento a una pagina. Perché “Quanto veloce/lento vengono caricate le pagine?” è un criterio utilizzato da Google nel crawl budget, l’uso di JavaScript potrebbe benissimo essere un grande fattore che contribuisce a far perdere a Google i tuoi contenuti importanti.

La soluzione? Prenditi l’onere di rendere JavaScript dai motori di ricerca 

Il passaggio a SSR o a una soluzione di rendering dinamico come SpeedWorkers può consentire ai bot dei motori di ricerca di dedicare più tempo alle tue pagine importanti perché non devono più dedicare tempo al rendering di JavaScript quando visitano le tue pagine.

La velocità della pagina è un’esperienza utente e un fattore di ranking, ma ricorda che è anche un fattore di crawl budget. Se lavori su un sito di grandi dimensioni che utilizza JavaScript, in particolare se il contenuto cambia frequentemente, potresti prendere in considerazione la possibilità di eseguire il prerendering del contenuto per i bot dei motori di ricerca.

3. Riduzione al minimo degli errori di scansione e codici di stato diversi da 200

Ricordi la formula del crawl budget di Google? Uno dei criteri che aiuta Google a determinare quanto tempo dedicare al tuo sito è “Il crawler sta riscontrando errori?”

Se Googlebot incontra molti errori durante la scansione del tuo sito, ad esempio 500 errori del server, ciò potrebbe ridurre il limite della velocità di scansione e, di conseguenza, il budget di scansione. Se noti un volume elevato di errori 5xx, potresti voler cercare di migliorare le capacità del tuo server.

Ma anche codici di stato diversi da 200 possono semplicemente costituire un rifiuto. Perché passare il tempo di Google a scansionare le pagine che hai eliminato e/o reindirizzato quando potresti indirizzare il loro tempo solo verso i tuoi URL attuali e attivi?

Nell’esempio seguente, vediamo un piccolo editore (< 100.000 pagine) che aveva già una quota piuttosto elevata di codici di risposta diversi da 200 nella sua scansione (40% in media). Ma un giorno (31 gennaio, il punto vuoto nel grafico), è stato introdotto un bug che causava la scansione di URL non corretti in precedenza. Questi URL non validi alla fine hanno consumato il 90% della scansione.

Il pattern URL non corretto è stato identificato ed etichettato come “errore” in giallo di seguito utilizzando la segmentazione URL . Ciò ha reso più facile comprendere l’effetto del problema sul resto del sito, ovvero che Google trascorreva tutto il suo tempo sugli URL di errore e mancava le pagine reali e preziose dell’editore.

? La soluzione? Pulisci i tuoi collegamenti interni e assicurati che la tua mappa del sito XML sia aggiornata

Oltre a impedire ai bot dei motori di ricerca di eseguire la scansione di URL non validi, è anche una buona idea evitare di collegarsi a pagine con codici di stato diversi da 200.

Per evitare di sprecare il tuo budget di scansione, assicurati di collegarti alla versione live preferita dei tuoi URL in tutti i tuoi contenuti. Come regola generale, dovresti evitare di collegarti agli URL se non sono la destinazione finale dei tuoi contenuti.

Ad esempio, dovresti evitare di collegarti a:

  • URL reindirizzati
  • La versione non canonica di una pagina
  • URL che restituiscono un codice di stato 404

Non sprecare il tuo crawl budget inviando i bot dei motori di ricerca attraverso più intermediari (ovvero catene e loop) per trovare i tuoi contenuti. Invece, collega alla destinazione finale.

Inoltre, evita gli errori comuni della mappa del sito XML come:

  • Elenco di pagine non indicizzabili come URL non 200, non canonici, non HTML e non indicizzati.
  • Dimenticando di aggiornare la tua mappa del sito dopo la modifica degli URL durante la migrazione del sito
  • Omissione di pagine importanti e altro ancora.

Includere solo URL preferiti attivi e assicurarsi di non tralasciare le pagine chiave di cui si desidera eseguire la scansione e l’indicizzazione dei motori di ricerca è fondamentale. Hai vecchie pagine di prodotto? Assicurati di farli scadere e di rimuoverli dalla tua mappa del sito.

4. Verifica del limite della velocità di scansione in Google Search Console

Google ti offre la possibilità di modificare la velocità di scansione di Googlebot sul tuo sito. Questo strumento può influire sul limite della frequenza di scansione, che fa parte del modo in cui Google determina il budget di scansione del tuo sito, quindi è importante da capire.

Sebbene non sia necessario utilizzare questa funzione, è disponibile per chiunque desideri modificare ciò che gli algoritmi di Google hanno determinato essere la velocità di scansione appropriata per il tuo sito.

Se la velocità di scansione è troppo alta, la scansione di Googlebot potrebbe mettere a dura prova il tuo server, motivo per cui Google offre ai webmaster l’opzione di una velocità di scansione limitata. Tuttavia, ciò potrebbe far sì che Google trovi meno dei tuoi contenuti importanti, quindi usa con cautela.

? La soluzione? Modifica la velocità di scansione in GSC

Per modificare la velocità di scansione, vai alla pagina delle impostazioni della velocità di scansione relativa alla proprietà che desideri modificare. Vedrai due opzioni: “Consenti a Google di ottimizzare” e “Limita la velocità di scansione massima di Google”.

Se desideri aumentare la velocità di scansione, è una buona idea controllare e vedere se “Limita la velocità di scansione massima di Google” è stato selezionato per errore.

5. Aumentare la popolarità delle tue pagine

Gli URL più popolari su Internet tendono a essere scansionati più spesso da Google.

Un modo in cui Google potrebbe giudicare la popolarità o almeno l’importanza relativa di una pagina è visualizzarne la profondità. La profondità della pagina (o “profondità del clic”) è il numero di clic necessari per accedere a una pagina dalla home page.

Un altro segnale di popolarità sul tuo sito è il collegamento interno. Se una pagina è collegata più volte, significa che quella pagina è popolare.

Nell’esempio seguente, puoi vedere che le pagine che Google scansiona hanno molti più link interni che puntano ad esse rispetto alle pagine che Google non scansiona.

? La soluzione? Diminuisci la profondità e aumenta i collegamenti interni a pagine importanti

Per aiutare Google a capire meglio quanto siano importanti e popolari le tue pagine, è una buona idea avvicinare le tue pagine importanti alla home page e collegarle più spesso.

Anche se non puoi collegarti a tutte le pagine dalla tua home page, sii strategico riguardo ai collegamenti interni e all’architettura del sito. Se una pagina è sepolta nel tuo sito e/o non è collegata molto spesso, ci sono buone probabilità che Google la consideri meno popolare e la sottoponga a scansione meno frequente.

6. Aggiornamento del contenuto obsoleto

Google potrebbe non eseguire più la scansione di una pagina perché è obsoleta e non è cambiata nelle ultime volte in cui ha eseguito la scansione del tuo sito. Google vuole anche impedire che le pagine diventino obsolete nel loro indice.

Un modo per identificare se hai contenuti obsoleti sul tuo sito è isolare i post che sono stati pubblicati prima di una certa data. Ad esempio, se hai una cadenza di pubblicazione piuttosto aggressiva (cioè più post ogni giorno), potresti voler filtrare e visualizzare i post più vecchi di tre mesi. Per i siti che pubblicano meno spesso, puoi scegliere di visualizzare i post più vecchi di tre anni. Dipende solo dalla tua cadenza.

Inoltre, puoi accoppiare questo filtro con il filtro “attivo/non attivo”. Ciò ti consentirebbe di vedere tutti i post più vecchi che non ricevono traffico di ricerca organico.

Questi possono essere buoni candidati per migliorare.

? La soluzione? Aggiorna i tuoi contenuti obsoleti

Esistono molti modi per aggiornare i tuoi contenuti obsoleti, ad esempio:

  • Correggere le informazioni non aggiornate
  • Cerca errori di ortografia e grammatica
  • Aggiorna tutti i collegamenti interni che puntano a vecchie risorse e aggiungine di nuove se pertinente
  • Identifica le query per le quali la pagina si è classificata, guarda come appare ora il panorama SERP per quei termini e aggiorna di conseguenza

Come un sito ha aumentato la scansione di 19 volte per raddoppiare il traffico di ricerca organico

Ora che hai familiarità con il crawl budget e come ottimizzarlo, potresti essere ansioso di portare avanti alcuni progetti da solo. Tuttavia, il tuo capo potrebbe chiederti di creare il business case per un progetto come questo prima che ti permettano di investire tempo e risorse.

Migliorare la scansione può aumentare le tue entrate

L’applicazione di queste ottimizzazioni su un sito con milioni di pagine può aprire una vasta gamma di opportunità, non solo per il tuo budget di scansione, ma anche per il traffico e le entrate del tuo sito!

Ciò è dovuto al principio del funnel SEO , che mostra che i miglioramenti nella fase di scansione hanno vantaggi a valle anche per le fasi di ranking, traffico e entrate, di cui i tuoi stakeholder saranno sicuramente contenti.

Il crawl budget non è solo una questione tecnica. È una questione di entrate. Quindi porta i robot – e i visitatori – solo alle cose buone! 


Stai cercando un Consulente SEO?

Se stai cercando un consulente seo conttattami a [email protected] o al numero 345-8541524.

La tua Azienda ha bisogno di un Corso SEO Aziendale?

Per maggiori informazioni contattati via mail  [email protected] o al numero 345-8541524.

Sei di Milano e hai bisogno di un Corso SEO?

Per maggiori informazioni contattati via mail  [email protected] o al numero 345-8541524.

Profilo Autore

Paolo Marzano
Paolo Marzano
Da oltre 10 anni mi occupo di strategie SEO per piccole e grandi aziende. L’obiettivo è aumentare e trasformare il traffico in Clienti.