Questo articolo definisce il crawl budget, illustra perché Google se ne preoccupa, elenca i fattori che lo influenzano e conclude con come può essere ottimizzato.

Crawl Budget Google

Crawl Budget Google

COS’È IL BUDGET DI CRAWL?

Il budget di scansione è il numero di URL scansionati da un motore di ricerca durante ogni sessione sul tuo sito web. Questo numero è determinato in base a una combinazione di fattori, raggruppati in base alle dimensioni, allo stato di salute e alla popolarità del tuo sito web.

DIMENSIONE DEL SITO WEB

I siti Web più piccoli e meno complessi probabilmente non devono preoccuparsi del budget di scansione tanto quanto i siti Web più grandi e complessi. Più pagine sono sul tuo sito, più è probabile che Google manchi pagine importanti a causa di vari fattori.

Se sei il webmaster di un sito Web aziendale o di un sito con milioni di pagine, l’ottimizzazione del budget di scansione è fondamentale.

SALUTE DEL SITO

L’integrità dei tuoi URL si riferisce alla velocità di caricamento delle tue pagine per i motori di ricerca, alla presenza di eventuali errori di codice di stato su tali pagine, nonché a eventuali limiti che potresti aver impostato sulle tue pagine tramite Google Search Console.

Se sei un webmaster che si occupa di uno di questi problemi tecnici, potresti semplicemente aver bisogno di investire risorse nella  SEO tecnica in  modo che Google possa scoprire di più del tuo sito web durante le sue visite.

POPOLARITA’ DEL SITO WEB

La popolarità dei tuoi URL si riferisce alla quantità di traffico, al numero di link in entrata e alla freschezza di ciascuno degli URL del tuo sito web.

Se sei un webmaster con poco traffico, pochi link in entrata e contenuti obsoleti sulle tue pagine ad alta priorità, questa è l’area non tecnica dell’ottimizzazione del crawl budget in cui puoi investire rapidamente e facilmente.

FREQUENZA DI CRAWL E DOMANDA DI CRAWL

Oltre alla definizione di cui sopra, il budget di scansione di un sito può essere definito anche dal limite della velocità di scansione e dalla domanda di scansione di un determinato dominio. Prendendo insieme la velocità di scansione e la domanda di scansione, Google definisce il budget di scansione come “il numero di URL che Googlebot può e desidera scansionare”.

LIMITE DI FREQUENZA DI SCANSIONE

Google definisce il “limite della velocità di scansione” come la velocità di recupero massima per un determinato sito e afferma che è determinato da:

1.) Il numero massimo di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione di un sito.

2.) Il ritardo nel tempo tra i recuperi.

Come accennato in precedenza, lo stato di salute di un sito svolgerà un ruolo nel limite della velocità di scansione per un determinato dominio. Se il sito è lento o presenta errori del server, il limite della velocità di scansione diminuirà e verrà indicizzato un numero inferiore di pagine per scansione del sito.

Un modo per massimizzare l’utilizzo del limite di velocità di scansione del tuo sito utilizza Google Search Console. Puoi impostare limiti di velocità di scansione in Search Console per segnalare parti del tuo sito di cui non desideri eseguire la scansione da parte di Googlebot e aumentare le possibilità che il motore di ricerca esegua la scansione delle tue pagine più importanti.

RICHIESTA DI SCANSIONE

L’altro fattore importante nel determinare la frequenza con cui Google esegue la scansione di un sito è correlato alla popolarità di un sito, come accennato in precedenza. I siti ad alto traffico tendono a essere scansionati più frequentemente rispetto ai siti che sembrano essere meno rilevanti per gli utenti dei motori di ricerca.

In definitiva, l’obiettivo di Googlebot è garantire che l’indice rimanga aggiornato. Ai contenuti nuovi e attualmente pertinenti verrà data la priorità per la scansione, mentre i contenuti meno recenti e obsoleti verranno eliminati.

PERCHÉ GOOGLE SI OCCUPA DEL BILANCIO CRAWL?

Quando pubblichi una pagina sul tuo sito web, Google non la indicizzerà e la classificherà necessariamente. Affinché la pagina appaia nei risultati di ricerca, il motore di ricerca deve prima eseguirne la scansione e questo può essere problematico.

Google non ha tempo e risorse infinite per eseguire la scansione di ogni pagina di ogni sito web in ogni momento. Nell’ultimo decennio, con la crescita di dimensioni e complessità di Internet, hanno riconosciuto i propri limiti e hanno rivelato di scoprire solo una frazione dei contenuti di Internet.

Ciò rende compito dei webmaster tenere conto del “crawl budget” nella loro strategia SEO tecnica, in modo tale che Google sia in grado di scoprire e scansionare gli URL “giusti” più spesso.

QUALI FATTORI HANNO UN IMPATTO SUL BILANCIO DEL CRAWL?

Di seguito sono riportati solo alcuni dei fattori che hanno un impatto negativo sul crawl budget:

  • Tempo di caricamento della pagina lento
  • Contenuto duplicato
  • Contenuti di bassa qualità
  • 404 pagine di errore
  • Navigazione sfaccettata
  • Identificatori di sessione

COME SI PUÒ OTTIMIZZARE UN SITO WEB PER IL BUDGET SEO CRAWL?

Ecco solo alcuni dei modi in cui un sito Web può essere ottimizzato per i crawler di Googlebot: velocità di scansione e domanda di scansione.

ESEGUIRE UN’ANALISI DEL FILE DI REGISTRO

Fare un’analisi del file di registro per il tuo sito è un buon punto di partenza. Un’analisi del file di registro può aiutare i webmaster a determinare la frequenza con cui Googlebot visita il tuo sito e se alcune pagine vengono scansionate più spesso di altre.

Inoltre, i proprietari di siti Web possono sapere se su un sito Web sono presenti determinate aree o pagine di cui Googlebot non è a conoscenza o se Googlebot sta riscontrando problemi di accessibilità in determinate aree di un sito Web.

MIGLIORA I TEMPI DI CARICAMENTO DELLA PAGINA PER I BOT

La velocità della pagina è un fattore importante nel determinare lo stato di salute di un determinato sito. L’elevata velocità delle pagine in definitiva aumenta il numero di pagine che Googlebot può scansionare e la probabilità che le pagine del sito vengano scansionate e indicizzate rapidamente.

Un modo per aumentare i tempi di caricamento dei bot, senza dover eliminare javascript o CSS che migliorano l’esperienza dell’utente, consiste nell’utilizzare un software di rendering dinamico . Il rendering dinamico ti consente di offrire una versione del tuo sito web ottimizzata per l’esperienza di scansione di Googlebot e una versione ottimizzata per l’esperienza utente.

Con il rendering dinamico, viene creata una versione HTML statica di una determinata pagina Web per aiutare Googlebot a comprendere il contenuto della pagina senza incorrere in problemi di scansione associati a javascript e codice CSS irrilevanti per le informazioni di cui Googlebot ha bisogno per indicizzare la pagina.

USA I TAG CANONICI PER I CONTENUTI ORIGINALI

Utilizza i tag canonici per evitare problemi con i contenuti duplicati e assicurati che Googlebot dia la priorità all’indicizzazione della versione originale di un contenuto.

AUMENTA IL NUMERO DI COLLEGAMENTI ESTERNI AGLI URL CON PRIORITÀ ALTA

È più probabile che i siti con autorità di dominio elevata e i siti con molti backlink vengano scansionati frequentemente perché il contenuto del sito è considerato più autorevole e pertinente sul Web. Più URL rimandano al tuo sito web che Googlebot incontra mentre esegue la scansione di altri siti, più segnala a Google che i tuoi contenuti web sono rilevanti per gli utenti.

MIGLIORA I LINK INTERNI NEL TUO SITO WEB

I forti collegamenti interni possono avere un impatto positivo sull’esperienza di scansione di Googlebot perché aiutano Google a collegare gli URL pertinenti, assicurandosi che Googlebot possa trovare importanti contenuti correlati.

REINDIRIZZARE 404 CODICI DI ERRORE

Googlebot non può eseguire la scansione di pagine con errori 404. È importante che i crawler dei motori di ricerca vengano indirizzati alla pagina corretta.

CERCA DI EVITARE LE CATENE DI REINDIRIZZAZIONE

Sebbene sia meglio reindirizzare 404 pagine a pagine senza errori, è anche cercare di limitare il più possibile le catene di reindirizzamento. Ci saranno sicuramente dei reindirizzamenti associati al tuo dominio. Ma troppi, incatenati insieme, danneggeranno il tuo limite di scansione e disincentiveranno i crawler dei motori di ricerca dal raggiungere pagine importanti del tuo sito.

Uno o due reindirizzamenti qua e là potrebbero non danneggiarti molto, ma è qualcosa di cui tutti devono comunque prendersi cura.

UTILIZZA I FILE ROBOTS.TXT PER BLOCCARE PARTI DEL TUO SITO DI CUI NON DESIDERI ESEGUIRE LA SCANSIONE

Un file robots.txt viene utilizzato per indicare ai robot web (come i crawler dei motori di ricerca) quali pagine eseguire la scansione su un determinato sito e come eseguirne la scansione. Un file robots.txt specifica a quali programmi utente è consentito eseguire la scansione di pagine specifiche contrassegnando quelle con le istruzioni “non consentire” o “consenti”.

AGGIORNA LA TUA MAPPA DEL SITO XML

Le mappe del sito XML esistono per aiutare i webmaster a migliorare le prestazioni SEO per il loro sito Web e l’invio di una mappa del sito XML dopo aver apportato modifiche al contenuto può aiutare i crawler a trovare e indicizzare le pagine del tuo sito più facilmente.

Sebbene Google non richieda le mappe del sito, non è un fattore di ranking SEO, il loro utilizzo può accelerare il processo di scansione, massimizzando così il budget di scansione per il tuo sito e consentendo a Google di indicizzare le tue pagine più rapidamente.

QUALI SONO I VANTAGGI DELL’OTTIMIZZAZIONE DEL BUDGET DI CRAWL?

In breve, Google dedica meno tempo alle pagine di bassa qualità e priorità bassa e più tempo alle parti più importanti e di alto valore del tuo sito.

In una determinata visita al tuo sito web:

  • Google è in grado di trovare più contenuti nuovi ed essenziali più velocemente
  • Google è in grado di aggiungere più contenuti nuovi ed essenziali ai risultati di ricerca più velocemente

I vantaggi a valle sono l’aumento generalizzato del ranking delle parole chiave, del traffico organico e delle entrate del canale organico.

COME POSSO MIGLIORARE IL MIO BUDGET DI CRAWL?

I motori di ricerca, come Google, utilizzano due fattori, il limite della velocità di scansione e la domanda di scansione, per determinare il numero di pagine Web di cui sono in grado di eseguire la scansione in una determinata sessione per dominio. Alcuni fattori che influiscono sulla domanda di scansione e sul limite di scansione includono la velocità del sito, le risorse del server disponibili, gli errori del server, gli URL di collegamento esterni totali e il traffico del sito. Il numero di pagine che un bot dei motori di ricerca è in grado di scansionare in una determinata sessione per il tuo sito web. I budget di scansione possono essere migliorati implementando varie pratiche SEO tecniche.

QUALI RISORSE ESISTONO PER MIGLIORARE IL CRAWL BUDGET?

La nostra piattaforma software sfrutta le ultime iniziative tecniche di Google, tra cui il rendering dinamico, l’ esperienza della pagina e i dati strutturati per ottimizzare l’intera prima metà della canalizzazione SEO, in modo che i motori di ricerca possano eseguire la scansione, il rendering e l’indicizzazione di più contenuti dal tuo sito web.


Stai cercando un Consulente SEO?

Se stai cercando un consulente seo conttattami a [email protected] o al numero 345-8541524.

La tua Azienda ha bisogno di un Corso SEO Aziendale?

Per maggiori informazioni contattati via mail  [email protected] o al numero 345-8541524.

Sei di Milano e hai bisogno di un Corso SEO?

Per maggiori informazioni contattati via mail  [email protected] o al numero 345-8541524.

Profilo Autore

Paolo Marzano
Paolo Marzano
Da oltre 10 anni mi occupo di strategie SEO per piccole e grandi aziende. L’obiettivo è aumentare e trasformare il traffico in Clienti.