C’è preoccupazione per la mancanza di un modo semplice per rinunciare all’utilizzo dei propri contenuti per addestrare modelli linguistici di grandi dimensioni (LLM) come ChatGPT . C’è un modo per farlo, ma non è né semplice né garantito per funzionare.

Come le IA imparano dai tuoi contenuti

I Large Language Models (LLM) vengono addestrati su dati provenienti da più fonti. Molti di questi set di dati sono open source e vengono utilizzati liberamente per addestrare le IA.

In generale, i Large Language Model utilizzano un’ampia varietà di fonti da cui allenarsi.

Esempi dei tipi di fonti utilizzate:

  • Wikipedia
  • Documenti del tribunale governativo
  • Libri
  • E-mail
  • Siti Web sottoposti a scansione

In realtà ci sono portali e siti Web che offrono set di dati che forniscono grandi quantità di informazioni.

Uno dei portali è ospitato da Amazon e offre migliaia di set di dati nel Registro degli Open Data su AWS .

Il portale Amazon con migliaia di set di dati è solo uno dei tanti portali che contengono più set di dati.

Wikipedia elenca 28 portali per il download di set di dati, inclusi i portali Google Dataset e Hugging Face per trovare migliaia di set di dati.

Set di dati utilizzati per addestrare ChatGPT

ChatGPT è basato su GPT-3.5, noto anche come InstructGPT.

I set di dati utilizzati per addestrare GPT-3.5 sono gli stessi utilizzati per GPT-3. La principale differenza tra i due è che GPT-3.5 utilizzava una tecnica nota come apprendimento per rinforzo dal feedback umano (RLHF).

I cinque set di dati utilizzati per addestrare GPT-3 (e GPT-3.5) sono descritti a pagina 9 del documento di ricerca, Language Models are Few-Shot Learners ( PDF )

I dataset sono:

  1. Scansione comune (filtrata)
  2. WebText2
  3. Libri1
  4. Libri2
  5. Wikipedia

Dei cinque set di dati, i due basati su una ricerca per indicizzazione di Internet sono:

  • Scansione comune
  • WebText2

Informazioni sul set di dati WebText2

WebText2 è un set di dati OpenAI privato creato eseguendo la scansione di collegamenti da Reddit con tre voti positivi.

L’idea è che questi URL siano affidabili e conterranno contenuti di qualità.

WebText2 è una versione estesa del set di dati WebText originale sviluppato da OpenAI.

Il set di dati WebText originale conteneva circa 15 miliardi di token. WebText è stato utilizzato per addestrare GPT-2.

OpenWebText2

WebText2 (creato da OpenAI) non è pubblicamente disponibile.

Tuttavia, esiste una versione open source disponibile pubblicamente chiamata OpenWebText2. OpenWebText2 è un set di dati pubblico creato utilizzando gli stessi modelli di scansione che presumibilmente offrono set di dati di URL simili, se non uguali, a OpenAI WebText2.

Ne parlo solo nel caso in cui qualcuno voglia sapere cosa c’è in WebText2. Si può scaricare OpenWebText2 per farsi un’idea degli URL in esso contenuti.

Una versione ripulita di OpenWebText2 può essere scaricata qui . La versione grezza di OpenWebText2 è disponibile qui .

Non sono riuscito a trovare informazioni sull’agente utente utilizzato per nessuno dei due crawler, forse è solo identificato come Python, non ne sono sicuro.

Quindi, per quanto ne so, non esiste un agente utente da bloccare, anche se non ne sono sicuro al 100%.

Tuttavia, sappiamo che se il tuo sito è collegato da Reddit con almeno tre voti positivi, allora c’è una buona probabilità che il tuo sito sia nel set di dati OpenAI WebText2 closed-source e nella sua versione open-source, OpenWebText2.

Ulteriori informazioni su OpenWebText2 sono disponibili qui .

Scansione comune

Uno dei set di dati più comunemente utilizzati costituito da contenuti Internet è il set di dati Common Crawl creato da un’organizzazione senza scopo di lucro chiamata Common Crawl .

I dati di Common Crawl provengono da un bot che esegue la scansione dell’intera Internet.

I dati vengono scaricati dalle organizzazioni che desiderano utilizzare i dati e quindi ripuliti dai siti contenenti spam, ecc.

Il nome del bot Common Crawl è CCBot.

CCBot obbedisce al protocollo robots.txt quindi è possibile bloccare Common Crawl with Robots.txt e impedire che i dati del tuo sito web vengano inseriti in un altro set di dati.

Tuttavia, se il tuo sito è già stato sottoposto a scansione, è probabile che sia già incluso in più set di dati.

Tuttavia, bloccando Common Crawl è possibile impedire l’inclusione dei contenuti del tuo sito web in nuovi set di dati provenienti da set di dati Common Crawl più recenti .

Questo è ciò che intendevo all’inizio dell’articolo quando ho scritto che il processo non è “né semplice né garantito per funzionare”.

La stringa CCBot User-Agent è:

CCBot/2.0

Aggiungi quanto segue al tuo file robots.txt per bloccare il bot Common Crawl:

Agente utente: CCBot
Non consentire: /

Un altro modo per confermare se un agente utente CCBot è legittimo è eseguire la scansione dagli indirizzi IP di Amazon AWS.

CCBot obbedisce anche alle direttive del meta tag dei robot nofollow.

Usa questo nel tuo meta tag robots:

<meta name="CCBot" content="nofollow">

Una considerazione prima di bloccare qualsiasi bot

Molti set di dati, tra cui Common Crawl, potrebbero essere utilizzati da aziende che filtrano e classificano gli URL per creare elenchi di siti Web a cui indirizzare la pubblicità.

Ad esempio, una società denominata Alpha Quantum offre un set di dati di URL categorizzati utilizzando l’ Interactive Advertising Bureau Taxonomy . Il set di dati è utile per il marketing AdTech e la pubblicità contestuale. L’esclusione da un database del genere potrebbe causare la perdita di potenziali inserzionisti da parte di un editore.

Impedire all’intelligenza artificiale di utilizzare i tuoi contenuti

I motori di ricerca consentono ai siti Web di disattivare la scansione. Common Crawl consente anche di rinunciare. Ma attualmente non c’è modo di rimuovere il contenuto del proprio sito web dai set di dati esistenti.

Inoltre, i ricercatori non sembrano offrire agli editori di siti Web un modo per rinunciare alla scansione.


Stai cercando un Consulente SEO?

Se stai cercando un consulente seo conttattami a [email protected] o al numero 345-8541524.

La tua Azienda ha bisogno di un Corso SEO Aziendale?

Per maggiori informazioni contattati via mail  [email protected] o al numero 345-8541524.

Sei di Milano e hai bisogno di un Corso SEO?

Per maggiori informazioni contattati via mail  [email protected] o al numero 345-8541524.

Profilo Autore

Paolo Marzano
Paolo Marzano
Da oltre 10 anni mi occupo di strategie SEO per piccole e grandi aziende. L’obiettivo è aumentare e trasformare il traffico in Clienti.