I dati sintetici salveranno l’intelligenza artificiale?
Immagine in evidenza da Wikimedia – Nacho Kamenov & Humans in the Loop
Se i dati sono il cibo di cui si alimenta l’intelligenza artificiale, allora
ChatGPT e i suoi fratelli hanno davanti a loro una seria minaccia: la carestia.
Da qualche tempo gli addetti ai lavori stanno infatti lanciando l’allarme sul
rischio che i dati disponibili per addestrare i large language model (i modelli
linguistici in grado di generare testi di ogni tipo, come ChatGPT) si stiano
esaurendo.
È ciò che in termini tecnici viene definito “data wall”: il momento in cui tutti
i dati disponibili online sono stati già utilizzati oppure sono resi
inaccessibili. Uno scenario che potrebbe seriamente compromettere l’evoluzione
dell’intelligenza artificiale, il cui sviluppo necessita di una quantità sempre
crescente di “token” (le porzioni di testo impiegate in fase di addestramento):
se per addestrare GPT-3, ovvero il modello linguistico alla base della prima
versione di ChatGPT, erano stati necessari 500 miliardi di token testuali (tra
cui l’intera Wikipedia in lingua inglese e ampie porzioni di forum come Reddit),
per GPT-4 si stima che ne siano stati invece utilizzati 13mila miliardi, quasi
trenta volte tanto.
Ma perché i dati testuali disponibili in colossali dataset come Common Crawl,
archivi immensi come Wikipedia e Reddit, o nell’intero web, rischiano di
esaurirsi? Le cause sono diverse e riguardano, sul lungo termine, anche la
possibilità che la crescente fame dei large language model consumi letteralmente
tutti i contenuti testuali online, il cui volume non cresce abbastanza
velocemente. Questo scenario potrebbe ostacolare lo sviluppo di nuovi sistemi,
che – secondo la legge di scala teorizzata dal CEO di Anthropic, Dario Amodei –
necessitano di tre elementi fondamentali: un numero sempre maggiore di parametri
(le variabili interne che un modello apprende durante l’addestramento), una
potenza computazionale crescente e, per l’appunto, una maggiore quantità di dati
disponibili.
Proiezioni sulla quantità effettiva di testo pubblico generato dall'uomo e sulle
dimensioni dei dataset utilizzati per addestrare i principali LLM.
Alcuni esperti prevedono che – come si legge in uno studio pubblicato dalla
società di ricerca EpochAI – “se le attuali tendenze nello sviluppo degli LLM
continueranno, i modelli linguistici saranno addestrati su dataset di dimensioni
approssimativamente pari all’intero stock di testi pubblici disponibili tra il
2026 e il 2032”. Dopodiché, le intelligenze artificiali rischiano di andare
incontro a una carestia.
Ma prima di arrivare a quello che potremmo definire – ribaltando le classiche
suggestioni che immaginano AI sempre più potenti e incontrollabili – il vero
“rischio esistenziale” per le intelligenze artificiali, ci sono problemi molto
più immediati da risolvere. Prima ancora che i dati siano esauriti, potrebbero
infatti diventare inaccessibili: secondo quanto riporta TechCrunch, già oggi
oltre il 35% dei principali mille siti blocca il web scraper impiegato da OpenAI
per raccogliere automaticamente i dati necessari all’addestramento dei suoi
modelli linguistici (o almeno ci prova, visto che questo divieto è più simile a
un cartello “vietato l’accesso” che a una recinzione con filo spinato).
Un altro studio ha stimato che il 25% dei dati provenienti da fonti di “alta
qualità” (quasi sempre testate giornalistiche prestigiose e in lingua inglese,
come il Guardian o il New York Times) è oggi inaccessibile ai principali dataset
impiegati per l’addestramento delle intelligenze artificiali (come il già citato
Common Crawl).
Le ragioni dietro a queste blocchi sono ormai note: alcuni tra i più importanti
siti web hanno fatto causa a OpenAI e altri per plagio (com’è stato per esempio
il caso del New York Times), accusandoli di aver riprodotto tramite ChatGPT e
modelli simili ampie porzioni dei propri articoli, violando quindi il copyright;
mentre in altri casi le lamentele hanno riguardato la mancanza di una chiara e
corretta attribuzione dei contenuti usati dai modelli linguistici per generare i
loro testi.
In alcuni casi, lo stallo è stato superato grazie ad accordi economici tra le
parti: siti come Stack Overflow (una sorta di Yahoo Answers o Quora per
programmatori) hanno iniziato a far pagare le società di intelligenza
artificiale che vogliono accedere ai loro contenuti, mentre Reddit ha affermato
di aver guadagnato centinaia di milioni di dollari grazie agli accordi con
OpenAI, Google e altri. Contratti simili sono stati siglati da testate come il
Wall Street Journal, la Associated Press e l’italiana Gedi, oltre che da archivi
fotografici e di immagini come Shutterstock (i cui dati vengono impiegati
soprattutto per sistemi “text-to-image” come Dall-E o Midjourney).
IL MERCATO DEI DATI
La fame delle intelligenze artificiali ha da tempo dato vita a un intero settore
commerciale, quello dei data labeler: società che si occupano di etichettare
dati (per esempio segnalando correttamente che cos’è presente in un’immagine o
etichettando come “recensione negativa” alcuni commenti presenti su TripAdvisor,
per indicare alla macchina il modo migliore di utilizzarli). Quello
dell’etichettatura di dati è un mercato che vale già oggi – secondo Dimension
Market Research – circa 850 milioni di dollari e che potrebbe raggiungere 10
miliardi di dollari nei prossimi dieci anni.
La crescita del mercato non è legata soltanto all’aumento della quantità di dati
necessari per addestrare modelli, ma anche alla necessità di etichettare
correttamente dati dalla complessità crescente (codice informatico, problemi
matematici, paper scientifici e altro ancora), per i quali è necessario
rivolgersi a persone con competenze specifiche e il cui compenso,
inevitabilmente, è più elevato rispetto agli etichettatori di dati semplici,
spesso provenienti da nazioni in via di sviluppo e pagati pochi dollari all’ora.
Tra accordi commerciali necessari per evitare che l’accesso ai dati venga
bloccato alla fonte e compensi crescenti per le persone che si occupano di
etichettarli, la conseguenza è che creare dataset linguistici (ma lo stesso
discorso vale anche per le immagini e altro) sta diventando sempre più costoso.
E questo ha delle conseguenze indesiderate: come spiega il New York Times, le
piccole aziende di intelligenza artificiale e i ricercatori accademici dipendono
dai dataset pubblici e non possono permettersi di acquistare licenze
direttamente dagli editori.
Se i principali dataset pubblici, come Common Crawl (che raccoglie miliardi di
pagine web ed è gestito da un’organizzazione no-profit), perdono l’accesso ai
siti di qualità più elevata, le piccole realtà accademiche e aziendali rischiano
di essere escluse dallo sviluppo dell’intelligenza artificiale. E questo
favorirebbe un’ulteriore concentrazione del potere tecnologico nelle mani delle
grandi aziende.
IL COLLASSO DEL MODELLO
Il problema è ulteriormente aggravato dal fatto che, oggi, le intelligenze
artificiali come ChatGPT non si limitano a fagocitare, per il loro
addestramento, i dati online. Al contrario, i modelli linguistici sono
responsabili di una parte sempre crescente dei contenuti testuali presenti nel
web (soprattutto quelli di bassa qualità). Contenuti che a loro volta vengono
raccolti dagli scraper, diventando così il materiale con cui altre intelligenze
artificiali verranno successivamente addestrate.
L’esito di questo circolo vizioso è abbastanza prevedibile ed è stato dimostrato
in un paper pubblicato qualche mese fa su Nature, in cui si mostra come il
risultato peggiora mano a mano che gli output prodotti dalla macchina vengono
utilizzati come dati di addestramento per i modelli futuri.
Parlando con la MIT Tech Review, Ilia Shumailov, informatico dell’Università di
Oxford e autore dello studio, ha paragonato questo processo a scattare foto di
altre foto. “Se scatti una foto, la scansioni, la stampi e ripeti questo
processo nel tempo, il rumore finisce per sovrastare l’intero processo. Alla
fine ti rimane un quadrato nero”. L’equivalente del quadrato nero per le
intelligenze artificiali è chiamato model collapse: il momento in cui il modello
finisce per produrre contenuti incoerenti e inutilizzabili.
Un esempio riportato sempre dalla MIT Tech Review aiuta ulteriormente a capire
il processo: Shumailov e i suoi colleghi hanno addestrato un large language
model su dati provenienti da Wikipedia e poi hanno addestrato il nuovo modello
sull’output generato dalla macchina per nove iterazioni consecutive. Il team ha
misurato quanto l’output peggiorasse di volta in volta utilizzando un
“perplexity score”: un indicatore della fiducia del modello AI nella propria
capacità di prevedere la parte successiva di una sequenza.
I modelli addestrati sugli output di altri modelli hanno ottenuto punteggi di
“perplexity” sempre più elevati (indicando quindi una qualità peggiore). I
ricercatori hanno per esempio chiesto al modello di generare una frase a partire
dal seguente testo preso da Wikipedia: “Il lavoro veniva generalmente eseguito
da un mastro muratore e da un piccolo team di muratori itineranti (…). Tuttavia,
altri autori respingono questo modello, suggerendo invece che gli architetti
principali progettassero le torri delle chiese parrocchiali basandosi su esempi
precoci dello stile Perpendicular”.
Nella nona e ultima iterazione, il modello ha generato il seguente testo come
prosecuzione di quello di Wikipedia: “Architettura. Oltre ad ospitare alcune
delle più grandi popolazioni mondiali di lepri dalla coda nera, lepri dalla coda
bianca, lepri dalla coda blu, lepri dalla coda rossa, lepri dalla coda gialla”.
Puro nonsense.
Il problema è che i dati sintetici – generati cioè da un’intelligenza
artificiale e che, entrando a far parte del web, vengono a loro volta dati usati
per l’addestramento di altre macchine – stanno rapidamente aumentando: due
ricercatori della Stanford University, Hans Hanley e Zakir Durumeric, hanno
stimato, tra il gennaio 2022 e il marzo 2023, un aumento del 68% nel numero di
articoli “AI-generated” pubblicati su Reddit e un incremento del 131% di quelli
invece presenti sulle testate online di scarsa qualità.
IL LATO BUONO DEI DATI SINTETICI
E pensare che i dati sintetici generati dalle macchine, se prodotti
appositamente per l’addestramento di altri modelli e usati correttamente,
potrebbero essere proprio la soluzione alla “carestia” da cui siamo partiti: “Se
è vero che ‘i dati sono il nuovo petrolio’, allora i dati sintetici sono il
biocarburante, generabili senza tutte le esternalità negative dell’originale”,
ha spiegato Os Keyes, ricercatore che si occupa di Etica delle nuove tecnologie.
“È possibile prendere una piccola base di partenza di dati e simulare ed
estrapolarne di nuovi da essa”.
I dati sintetici, come detto, sono dei dati creati dalla macchina stessa. Nel
caso dei large language model, per esempio, si tratterebbe di utilizzare testi –
articoli, poesie, lettere, recensioni, ecc. – generati appositamente per
addestrare altri modelli. In questo modo, non si corre il rischio di esaurire i
dati disponibili, di incorporare nei dataset dei contenuti violenti, sessisti o
razzisti (perché, almeno teoricamente, la macchina è addestrata per non
produrli) o di utilizzare testi protetti da diritto d’autore.
“Sono dati generati dalle intelligenze artificiali, ma è molto importante usare
bene l’arte del prompting”, mi ha spiegato Giada Pistilli, responsabile
dell’etica dell’intelligenza artificiale per Hugging Face. “Non puoi chiedere
soltanto di ‘generare una conversazione tra due persone’, ma bisogna dare
comandi più circostanziati e di qualità. In Hugging Face abbiamo un gruppo di
ricerca che lavora sui dati sintetici e uno dei trucchi impiegati, approfittando
del fatto che nei dataset umani i dati di qualità migliore provengono dai
manuali scolastici, è di chiedere nel prompt di ‘generare dati come se fosse per
un manuale scolastico’”.
Anche se al momento nessuno dei più noti modelli è stato addestrato usando
esclusivamente dati sintetici, è noto che essi sono stati utilizzati per
sviluppare Claude 3.5 Sonnet di Anthropic, Llama 3.1 di Meta, GPT-4.5 di OpenAI
e altri. I vantaggi si estendono anche ad altri aspetti, tra cui quello
economico: si stima che Palmyra X 004, un modello sviluppato quasi
esclusivamente su dati sintetici da Writer (società di intelligenze artificiali
generative a uso aziendale) sia costato 700mila dollari, contro i 4,6 milioni
per un modello di dimensioni equiparabili addestrato nel modo classico. Sempre
Hugging Face, che è una piattaforma collaborativa per strumenti di intelligenza
artificiale, ha recentemente dichiarato di aver creato il più grande set di dati
sintetici, chiamato SmolLM-Corpus.
Alla luce di tutto questo, non stupisce che il mercato dei dati sintetici sia
destinato a occupare una quota sempre crescente di questo particolare settore e
dovrebbe arrivare a valere – secondo le stime di Fortune Business Insights –
2,34 miliardi di dollari entro il 2030. Stando a una ricerca di Gartner, invece,
già quest’anno il 60% dei dati impiegati in fase di addestramento potrebbe
essere generato sinteticamente.
Per quanto ci siano parecchi segnali che i dati sintetici possano risolvere, o
almeno mitigare, alcuni dei principali problemi finora osservati, altri rischi
attendono dietro l’angolo. Per esempio, come si legge ancora su TechCrunch, se i
dati usati in primo luogo per addestrare la macchina presentano dei pregiudizi e
altri difetti, i relativi output sintetici ne risulteranno contaminati allo
stesso modo. Per esempio, i gruppi scarsamente rappresentati nei dati di base lo
saranno anche nei dati sintetici.
Uno studio del 2023 condotto da ricercatori della Rice University e di Stanford
ha scoperto che un’eccessiva dipendenza dai dati sintetici durante
l’addestramento può portare a modelli la cui “qualità o diversità diminuisce
progressivamente”. Secondo i ricercatori, la diversità dei contenuti generati da
un modello peggiora dopo poche generazioni di addestramento, anche se il
problema può essere mitigato introducendo una percentuale variabile di dati
reali.
È lo stesso problema del model collapse, applicato però all’addestramento
volontario attraverso dati sintetici invece che attraverso l’addestramento
involontario (causato cioè dal numero sempre crescente di contenuti
“AI-generated” presenti sul web). “In realtà, questo avviene soprattutto se si
prendono i dati sintetici generati dal sistema e li si utilizza così come sono”,
conclude Giada Pistilli. “Ma il processo è più complesso. Per esempio, si può
chiedere a un modello di valutare la qualità dei dati generati da un altro
modello, includendo nel dataset solo quelli che superano una certa soglia. In
questo modo, e alcune nostre evidenze scientifiche lo dimostrano, i dati
sintetici possono essere anche di qualità migliore, perché sono più puliti e più
controllati. Certo, il rischio che si instauri un circolo vizioso è presente, ma
dovremo aspettare ancora un po’ di tempo per constatarlo”.
L'articolo I dati sintetici salveranno l’intelligenza artificiale? proviene da
Guerre di Rete.