I dati sintetici salveranno l’intelligenza artificiale?(Fonte) Andrea Signorelli – 19 marzo 2025
Gli esperti avvertono che i modelli di intelligenza artificiale potrebbero
presto affrontare una “carestia di dati”. I large language model consumano
enormi quantità di testi per l’addestramento, ma le fonti disponibili sul web –
come Common Crawl, Wikipedia o Reddit – stanno raggiungendo un limite, il
cosiddetto data wall, cioè il punto in cui tutti i dati utili sono già stati
utilizzati o diventano inaccessibili.
La crescita della domanda è enorme: GPT-3 ha richiesto 500 miliardi di token,
mentre GPT-4 ne avrebbe utilizzati circa 13 mila miliardi. Tuttavia, il volume
di contenuti testuali online non aumenta abbastanza velocemente per sostenere
modelli sempre più grandi, che secondo la legge di scala richiedono più
parametri, più potenza computazionale e soprattutto molti più dati. Questo
rischio potrebbe frenare lo sviluppo futuro dell’IA.
Secondo uno studio di EpochAI, continuando le attuali tendenze, gli LLM
esauriranno tutti i testi pubblici disponibili tra il 2026 e il 2032, entrando
così in una possibile “carestia di dati”. Ma il problema potrebbe arrivare
prima: secondo quanto riporta TechCrunch, molti dati stanno diventando
inaccessibili. Un altro studio ha stimato che il 25% dei dati provenienti da
fonti di “alta qualità” (quasi sempre testate giornalistiche prestigiose e in
lingua inglese, come il Guardian o il New York Times) è oggi inaccessibile ai
principali dataset impiegati per l’addestramento delle intelligenze artificiali.
La chiusura dei siti deriva da controversie su copyright e uso improprio dei
contenuti, come le cause intentate da testate quali il New York Times. Per
sbloccare l’accesso, molte piattaforme hanno iniziato a monetizzare i propri
dati: Stack Overflow, Reddit e diverse testate (WSJ, AP, Gedi) hanno firmato
accordi a pagamento con le aziende di IA, così come archivi di immagini come
Shutterstock.
Il mercato dei dati
La crescente domanda di dati per addestrare l’IA ha fatto nascere un mercato
miliardario dell’etichettatura dei dati, oggi valutato circa 850 milioni di
dollari e destinato a raggiungere i 10 miliardi nei prossimi dieci anni,
secondo Dimension Market Research. La crescita è spinta sia dall’aumento del
volume di dati necessari sia dalla maggiore complessità dei contenuti da
etichettare, che richiede personale specializzato e più costoso, mentre i lavori
più semplici sono spesso svolti da lavoratori poco pagati nei Paesi in via di
sviluppo.
Parallelamente, l’accesso ai dati sta diventando più oneroso per via degli
accordi commerciali che molte piattaforme impongono alle aziende di IA. Il
risultato è un forte aumento dei costi per creare nuovi dataset. Questa dinamica
danneggia soprattutto piccole aziende e ricercatori, che dipendono da dataset
pubblici come Common Crawl e non possono permettersi licenze costose. Se i
dataset pubblici perdono accesso a contenuti di alta qualità, il rischio è una
crescente concentrazione del potere tecnologico nelle mani delle grandi società
di IA.
Il collasso del modello
Il problema della scarsità di dati è aggravato dal fatto che una quota crescente
dei contenuti online è generata direttamente da modelli di IA. Questi testi –
spesso di bassa qualità – vengono poi raccolti dagli scraper e riutilizzati come
dati di addestramento, creando un circolo vizioso: l’IA si allena su contenuti
prodotti da altre IA, degradando progressivamente la qualità del modello.
Uno studio pubblicato su Naturemostra che addestrare modelli su output generati
da altri modelli porta al model collapse, una progressiva perdita di coerenza
paragonabile a fare copie successive di una fotografia, fino ad avere solo
“rumore”. Esperimenti controllati hanno mostrato che, dopo varie iterazioni, il
modello finisce per produrre frasi completamente senza senso.
Il problema è urgente perché i contenuti sintetici stanno crescendo rapidamente:
tra il 2022 e il 2023 i post generati da IA sono aumentati del 68% su Reddit e
del 131% sui siti online di bassa qualità, alimentando ulteriormente il rischio
di un collasso dei modelli.
Il lato buono dei dati sintetici
I dati sintetici, se generati appositamente e con tecniche corrette, potrebbero
rappresentare una soluzione alla futura “carestia di dati” per l’IA. “Se è vero
che ‘i dati sono il nuovo petrolio’, allora i dati sintetici sono il
biocarburante, generabili senza tutte le esternalità negative dell’originale”,
ha spiegato Os Keyes, ricercatore che si occupa di Etica delle nuove
tecnologie. Sono testi creati direttamente dai modelli, che possono ampliare
artificialmente i dataset senza rischi di copyright e con meno contenuti
tossici. La qualità dipende però da un uso accurato del prompting: per ottenere
dati utili servono istruzioni precise, come generare testi in stile “manuale
scolastico”.
Molti modelli recenti – tra cui Claude 3.5 Sonnet, Llama 3.1 e GPT-4.5 – usano
già dati sintetici, che permettono anche forti risparmi economici: si stima che
Palmyra X 004, un modello sviluppato quasi esclusivamente su dati sintetici da
Writer (società di intelligenze artificiali generative a uso aziendale) sia
costato 700mila dollari, contro i 4,6 milioni per un modello di dimensioni
equiparabili addestrato nel modo classico. Sempre Hugging Face, che è una
piattaforma collaborativa per strumenti di intelligenza artificiale, ha
recentemente dichiarato di aver creato il più grande set di dati sintetici,
chiamato SmolLM-Corpus.
Restano però rischi significativi: i dati sintetici ereditano e amplificano
pregiudizi e squilibri già presenti nei dati originali.
Uno studio del 2023 condotto da ricercatori della Rice University e di Stanford
ha scoperto che un’eccessiva dipendenza dai dati sintetici durante
l’addestramento può portare a modelli la cui “qualità o diversità diminuisce
progressivamente”.
Il rischio di model collapse esiste anche quando si usano dati sintetici
prodotti intenzionalmente: se vengono riutilizzati senza filtri, la qualità del
modello degrada rapidamente. Tuttavia, questo esito non è inevitabile. Filtrando
e valutando gli output – ad esempio facendo giudicare a un modello la qualità
dei dati generati da un altro e selezionando solo quelli migliori – i dataset
sintetici possono risultare persino più puliti e controllati di quelli reali. Il
pericolo di un circolo vizioso rimane, ma la ricerca suggerisce che con un uso
attento e selettivo dei dati sintetici si può mantenere, o persino migliorare,
la qualità complessiva.
The post I dati sintetici salveranno l’intelligenza artificiale? first appeared
on Lavoratrici e Lavoratori Aci Informatica.