Salta al contenuto

Cerca per:

Consulente SEO
Perchè Scegliermi
Analisi Seo Gratuita
Approfondimenti
Formazione
Contatti

Cerca per:

Consulente SEO
Perchè Scegliermi
Analisi Seo Gratuita
Approfondimenti
Formazione
Contatti

Consulente SEO
Perchè Scegliermi
Analisi Seo Gratuita
Approfondimenti
Formazione
Contatti

Cerca per:

Come impedire a ChatGPT di utilizzare i contenuti del tuo sito web

Home - Approfondimenti SEO - Come impedire a ChatGPT di utilizzare i contenuti del tuo sito web

Precedente Prossimo

Come impedire a ChatGPT di utilizzare i contenuti del tuo sito web

C’è preoccupazione per la mancanza di un modo semplice per rinunciare all’utilizzo dei propri contenuti per addestrare modelli linguistici di grandi dimensioni (LLM) come ChatGPT . C’è un modo per farlo, ma non è né semplice né garantito per funzionare.

Indice Contenuti

Come le IA imparano dai tuoi contenuti
Set di dati utilizzati per addestrare ChatGPT
Informazioni sul set di dati WebText2
- OpenWebText2
- Scansione comune
Una considerazione prima di bloccare qualsiasi bot
Impedire all'intelligenza artificiale di utilizzare i tuoi contenuti

Come le IA imparano dai tuoi contenuti

I Large Language Models (LLM) vengono addestrati su dati provenienti da più fonti. Molti di questi set di dati sono open source e vengono utilizzati liberamente per addestrare le IA.

In generale, i Large Language Model utilizzano un’ampia varietà di fonti da cui allenarsi.

Esempi dei tipi di fonti utilizzate:

Wikipedia
Documenti del tribunale governativo
Libri
E-mail
Siti Web sottoposti a scansione

In realtà ci sono portali e siti Web che offrono set di dati che forniscono grandi quantità di informazioni.

Uno dei portali è ospitato da Amazon e offre migliaia di set di dati nel Registro degli Open Data su AWS .

Il portale Amazon con migliaia di set di dati è solo uno dei tanti portali che contengono più set di dati.

Wikipedia elenca 28 portali per il download di set di dati, inclusi i portali Google Dataset e Hugging Face per trovare migliaia di set di dati.

Set di dati utilizzati per addestrare ChatGPT

ChatGPT è basato su GPT-3.5, noto anche come InstructGPT.

I set di dati utilizzati per addestrare GPT-3.5 sono gli stessi utilizzati per GPT-3. La principale differenza tra i due è che GPT-3.5 utilizzava una tecnica nota come apprendimento per rinforzo dal feedback umano (RLHF).

I cinque set di dati utilizzati per addestrare GPT-3 (e GPT-3.5) sono descritti a pagina 9 del documento di ricerca, Language Models are Few-Shot Learners ( PDF )

I dataset sono:

Scansione comune (filtrata)
WebText2
Libri1
Libri2
Wikipedia

Dei cinque set di dati, i due basati su una ricerca per indicizzazione di Internet sono:

Scansione comune
WebText2

Informazioni sul set di dati WebText2

WebText2 è un set di dati OpenAI privato creato eseguendo la scansione di collegamenti da Reddit con tre voti positivi.

L’idea è che questi URL siano affidabili e conterranno contenuti di qualità.

WebText2 è una versione estesa del set di dati WebText originale sviluppato da OpenAI.

Il set di dati WebText originale conteneva circa 15 miliardi di token. WebText è stato utilizzato per addestrare GPT-2.

OpenWebText2

WebText2 (creato da OpenAI) non è pubblicamente disponibile.

Tuttavia, esiste una versione open source disponibile pubblicamente chiamata OpenWebText2. OpenWebText2 è un set di dati pubblico creato utilizzando gli stessi modelli di scansione che presumibilmente offrono set di dati di URL simili, se non uguali, a OpenAI WebText2.

Ne parlo solo nel caso in cui qualcuno voglia sapere cosa c’è in WebText2. Si può scaricare OpenWebText2 per farsi un’idea degli URL in esso contenuti.

Una versione ripulita di OpenWebText2 può essere scaricata qui . La versione grezza di OpenWebText2 è disponibile qui .

Non sono riuscito a trovare informazioni sull’agente utente utilizzato per nessuno dei due crawler, forse è solo identificato come Python, non ne sono sicuro.

Quindi, per quanto ne so, non esiste un agente utente da bloccare, anche se non ne sono sicuro al 100%.

Tuttavia, sappiamo che se il tuo sito è collegato da Reddit con almeno tre voti positivi, allora c’è una buona probabilità che il tuo sito sia nel set di dati OpenAI WebText2 closed-source e nella sua versione open-source, OpenWebText2.

Ulteriori informazioni su OpenWebText2 sono disponibili qui .

Scansione comune

Uno dei set di dati più comunemente utilizzati costituito da contenuti Internet è il set di dati Common Crawl creato da un’organizzazione senza scopo di lucro chiamata Common Crawl .

I dati di Common Crawl provengono da un bot che esegue la scansione dell’intera Internet.

I dati vengono scaricati dalle organizzazioni che desiderano utilizzare i dati e quindi ripuliti dai siti contenenti spam, ecc.

Il nome del bot Common Crawl è CCBot.

CCBot obbedisce al protocollo robots.txt quindi è possibile bloccare Common Crawl with Robots.txt e impedire che i dati del tuo sito web vengano inseriti in un altro set di dati.

Tuttavia, se il tuo sito è già stato sottoposto a scansione, è probabile che sia già incluso in più set di dati.

Tuttavia, bloccando Common Crawl è possibile impedire l’inclusione dei contenuti del tuo sito web in nuovi set di dati provenienti da set di dati Common Crawl più recenti .

Questo è ciò che intendevo all’inizio dell’articolo quando ho scritto che il processo non è “né semplice né garantito per funzionare”.

La stringa CCBot User-Agent è:

CCBot/2.0

Aggiungi quanto segue al tuo file robots.txt per bloccare il bot Common Crawl:

Agente utente: CCBot
Non consentire: /

Un altro modo per confermare se un agente utente CCBot è legittimo è eseguire la scansione dagli indirizzi IP di Amazon AWS.

CCBot obbedisce anche alle direttive del meta tag dei robot nofollow.

Usa questo nel tuo meta tag robots:

<meta name="CCBot" content="nofollow">

Una considerazione prima di bloccare qualsiasi bot

Molti set di dati, tra cui Common Crawl, potrebbero essere utilizzati da aziende che filtrano e classificano gli URL per creare elenchi di siti Web a cui indirizzare la pubblicità.

Ad esempio, una società denominata Alpha Quantum offre un set di dati di URL categorizzati utilizzando l’ Interactive Advertising Bureau Taxonomy . Il set di dati è utile per il marketing AdTech e la pubblicità contestuale. L’esclusione da un database del genere potrebbe causare la perdita di potenziali inserzionisti da parte di un editore.

Impedire all’intelligenza artificiale di utilizzare i tuoi contenuti

I motori di ricerca consentono ai siti Web di disattivare la scansione. Common Crawl consente anche di rinunciare. Ma attualmente non c’è modo di rimuovere il contenuto del proprio sito web dai set di dati esistenti.

Inoltre, i ricercatori non sembrano offrire agli editori di siti Web un modo per rinunciare alla scansione.

Stai cercando un Consulente SEO?

Se stai cercando un consulente seo conttattami a [email protected] o al numero 345-8541524.

La tua Azienda ha bisogno di un Corso SEO Aziendale?

Per maggiori informazioni contattati via mail [email protected] o al numero 345-8541524.

Sei di Milano e hai bisogno di un Corso SEO?

Per maggiori informazioni contattati via mail [email protected] o al numero 345-8541524.

Profilo Autore

Paolo Marzano

Da oltre 10 anni mi occupo di strategie SEO per piccole e grandi aziende. L’obiettivo è aumentare e trasformare il traffico in Clienti.

Ultimi Post Pubblicati

Archivio Autore

Approfondimenti SEO29 Marzo 2024Consulente SEO: 7 Strategie per Scalare le Vette di Google
Approfondimenti SEO22 Novembre 2023SEO Locale per Piccole Imprese: La Chiave del Successo Online
Approfondimenti SEO26 Ottobre 2023SEO Locale per Piccole Imprese: La Chiave del Successo Online
Approfondimenti SEO26 Ottobre 2023Google Cache: come sfruttarla per Ottimizzare il Tuo Sito

Di Paolo Marzano|2023-02-03T15:42:26+01:0003 /02/2023|Categorie: Approfondimenti SEO, Novità e Update Google|

Post correlati

Consulente SEO: 7 Strategie per Scalare le Vette di Google

Consulente SEO: 7 Strategie per Scalare le Vette di Google

Consulente SEO: 7 Strategie per Scalare le Vette di Google

29 /03/2024

SEO Locale per Piccole Imprese: La Chiave del Successo Online

SEO Locale per Piccole Imprese: La Chiave del Successo Online

SEO Locale per Piccole Imprese: La Chiave del Successo Online

22 /11/2023

SEO Locale per Piccole Imprese: La Chiave del Successo Online

SEO Locale per Piccole Imprese: La Chiave del Successo Online

SEO Locale per Piccole Imprese: La Chiave del Successo Online

26 /10/2023

Google Cache: come sfruttarla per Ottimizzare il Tuo Sito

Google Cache: come sfruttarla per Ottimizzare il Tuo Sito

Google Cache: come sfruttarla per Ottimizzare il Tuo Sito

26 /10/2023

Ottimizzazione dei Contenuti per la SEO: alcuni consigli utili

Ottimizzazione dei Contenuti per la SEO: alcuni consigli utili

Ottimizzazione dei Contenuti per la SEO: alcuni consigli utili

28 /09/2023

Google compie 25 anni: gli esperti SEO condividono momenti memorabili

Google compie 25 anni: gli esperti SEO condividono momenti memorabili

Google compie 25 anni: gli esperti SEO condividono momenti memorabili

27 /09/2023

L’Analisi SEO Gratuita: La Chiave per il Successo Online

L’Analisi SEO Gratuita: La Chiave per il Successo Online

L’Analisi SEO Gratuita: La Chiave per il Successo Online

27 /09/2023

Sitemap xml: tutto quello che devi sapere lato SEO

Sitemap xml: tutto quello che devi sapere lato SEO

Sitemap xml: tutto quello che devi sapere lato SEO

30 /08/2023

Lista eventi in Google Analytics 4 (GA4): traccia e ottimizza il tuo sito

Lista eventi in Google Analytics 4 (GA4): traccia e ottimizza il tuo sito

Lista eventi in Google Analytics 4 (GA4): traccia e ottimizza il tuo sito

28 /08/2023

SEO Local: 5 consigli per potenziare la tua strategia

SEO Local: 5 consigli per potenziare la tua strategia

SEO Local: 5 consigli per potenziare la tua strategia

25 /08/2023

Cerca

Generic selectors

Exact matches only

Search in title

Search in content

Post Type Selectors

Sono stato intevistato da Digital-Coach per l’attività SEO

Categorie

Approfondimenti SEO (234)
Articoli SEO più letti (6)
Consulente SEO (12)
Domande SEO (32)
Interviste Consulente SEO (10)
Senza categoria (1)

Intervista alla radio

          
   Paolo Borsari 
 21/03/2022
 
 
  Ho richiesto a Paolo un audit del mio sito aziendale. Ho ricevuto un report con tutte le mancanze lato codice e lato content e le strategie da applicare per risalire nei risultati su Google.
Ci siamo trovati bene, sicuramente chiederemo altre verifiche da fare sul sito una volta creato il resyling.
  
 
       
   Francesca Amato 
 15/03/2022
 
 
  Ottimo Professionista. Ha indicizzato il mio in poco tempo su Google e abbiamo ricevuto molte visite
  
 
       
   alice sannina 
 01/02/2022
 
 
  Ha realizzato il sito web della mia attività.
Lo consiglio sia come webmaster che come consulente seo.
  
 
       
   Giuseppe Conte 
 26/07/2021
 
 
  Ho chiesto una consulenza SEO per il mio sito.
Paolo mi ha creato una business strategy insieme al suo team che ha portato i risultati sperati nei tempi prestabiliti.
  
 
       
   Giuseppe Salvini 
 23/06/2021
 
 
  Oltre che essere molto in gamba e professionale è anche molto simpatico e alla mano.
Lo consiglio davvero.
  
 
       
   Piero Cambrini 
 04/06/2021
 
 
  Ha realizzato la strategia seo e il nostro sito web aziendale. Molto professionale e simpatico.
  
 
       
   Gianluca Crippa 
 14/05/2021
 
 
  Ho acquistato un corso seo aziendale.
Dopo averci insegnato le basi e fatto un'analisi approfondita del nostro sito aziendale, grazie ai consigli dati,  siamo riusciti in breve tempo a indicizzarlo.
  
 
       
   Fabio Borrelli 
 15/09/2020
 
 
  Ho conosciuto Paolo durante uno dei suoi corsi SEO.
Sono diventato suo cliente tramite l'azienda per la quale lavoro.
Dopo alcuni mesi abbiamo iniziato ad incrementare le visite al nostro sito e finalmente a convertire.
Gran professionista..oltre che simpatico.
Lo raccomando
  
 
       
   Roberto Cancelli 
 01/09/2020
 
 
  Ho frequentato un corso aziendale seo tenuto da Paolo.
Molto interessante e con molti spunti di business.
Successivamente abbiamo fatto curare la SEO del nostro sito. In 6 mesi siamo riusciti a posizionarci con le keyword settoriali concordate ad inizio progetto.  Un vero professionista
  
 
       
   Daniele Tondo 
 19/03/2020
 
 
  Mi sono trovato molto bene, ho frequentato un corso di SEO.
Molto interessante, un mondo che non conoscevo.
Grande docente.

Cerca

Generic selectors

Exact matches only

Search in title

Search in content

Post Type Selectors

Recenti

Mostbet bd: Join, Register, Start Winning!
24 /07/2024
Consulente SEO: 7 Strategie per Scalare le Vette di Google
29 /03/2024
SEO Locale per Piccole Imprese: La Chiave del Successo Online
22 /11/2023

Contatti

Cellulare: 3458541524

Email: Email

Paolomarzano.com Via Bruno Buozzi, 8 - 20835 Muggiò (MB) P. IVA: 07982500964 REA: MB-2544684
Sitemap