I dati sintetici salveranno l’intelligenza artificiale?

Lavoratrici e Lavoratori Aci Informatica - Sunday, November 30, 2025

(Fonte) Andrea Signorelli – 19 marzo 2025

Gli esperti avvertono che i modelli di intelligenza artificiale potrebbero presto affrontare una “carestia di dati”. I large language model consumano enormi quantità di testi per l’addestramento, ma le fonti disponibili sul web – come Common Crawl, Wikipedia o Reddit – stanno raggiungendo un limite, il cosiddetto data wall, cioè il punto in cui tutti i dati utili sono già stati utilizzati o diventano inaccessibili.

La crescita della domanda è enorme: GPT-3 ha richiesto 500 miliardi di token, mentre GPT-4 ne avrebbe utilizzati circa 13 mila miliardi. Tuttavia, il volume di contenuti testuali online non aumenta abbastanza velocemente per sostenere modelli sempre più grandi, che secondo la legge di scala richiedono più parametri, più potenza computazionale e soprattutto molti più dati. Questo rischio potrebbe frenare lo sviluppo futuro dell’IA.

Secondo uno studio di EpochAI, continuando le attuali tendenze, gli LLM esauriranno tutti i testi pubblici disponibili tra il 2026 e il 2032, entrando così in una possibile “carestia di dati”. Ma il problema potrebbe arrivare prima:  secondo quanto riporta TechCrunch, molti dati stanno diventando inaccessibili. Un altro studio ha stimato che il 25% dei dati provenienti da fonti di “alta qualità” (quasi sempre testate giornalistiche prestigiose e in lingua inglese, come il Guardian o il New York Times) è oggi inaccessibile ai principali dataset impiegati per l’addestramento delle intelligenze artificiali.

La chiusura dei siti deriva da controversie su copyright e uso improprio dei contenuti, come le cause intentate da testate quali il New York Times. Per sbloccare l’accesso, molte piattaforme hanno iniziato a monetizzare i propri dati: Stack Overflow, Reddit e diverse testate (WSJ, AP, Gedi) hanno firmato accordi a pagamento con le aziende di IA, così come archivi di immagini come Shutterstock.

Il mercato dei dati 

La crescente domanda di dati per addestrare l’IA ha fatto nascere un mercato miliardario delletichettatura dei dati, oggi valutato circa 850 milioni di dollari e destinato a raggiungere i 10 miliardi nei prossimi dieci anni,  secondo Dimension Market Research. La crescita è spinta sia dall’aumento del volume di dati necessari sia dalla maggiore complessità dei contenuti da etichettare, che richiede personale specializzato e più costoso, mentre i lavori più semplici sono spesso svolti da lavoratori poco pagati nei Paesi in via di sviluppo.

Parallelamente, l’accesso ai dati sta diventando più oneroso per via degli accordi commerciali che molte piattaforme impongono alle aziende di IA. Il risultato è un forte aumento dei costi per creare nuovi dataset. Questa dinamica danneggia soprattutto piccole aziende e ricercatori, che dipendono da dataset pubblici come Common Crawl e non possono permettersi licenze costose. Se i dataset pubblici perdono accesso a contenuti di alta qualità, il rischio è una crescente concentrazione del potere tecnologico nelle mani delle grandi società di IA.

Il collasso del modello

Il problema della scarsità di dati è aggravato dal fatto che una quota crescente dei contenuti online è generata direttamente da modelli di IA. Questi testi – spesso di bassa qualità – vengono poi raccolti dagli scraper e riutilizzati come dati di addestramento, creando un circolo vizioso: l’IA si allena su contenuti prodotti da altre IA, degradando progressivamente la qualità del modello.

Uno studio pubblicato su Naturemostra che addestrare modelli su output generati da altri modelli porta al model collapse, una progressiva perdita di coerenza paragonabile a fare copie successive di una fotografia, fino ad avere solo “rumore”. Esperimenti controllati hanno mostrato che, dopo varie iterazioni, il modello finisce per produrre frasi completamente senza senso.

Il problema è urgente perché i contenuti sintetici stanno crescendo rapidamente: tra il 2022 e il 2023 i post generati da IA sono aumentati del 68% su Reddit e del 131% sui siti online di bassa qualità, alimentando ulteriormente il rischio di un collasso dei modelli.

Il lato buono dei dati sintetici

I dati sintetici, se generati appositamente e con tecniche corrette, potrebbero rappresentare una soluzione alla futura “carestia di dati” per l’IA. “Se è vero che ‘i dati sono il nuovo petrolio’, allora i dati sintetici sono il biocarburante, generabili senza tutte le esternalità negative dell’originale”, ha spiegato Os Keyes, ricercatore che si occupa di Etica delle nuove tecnologie.  Sono testi creati direttamente dai modelli, che possono ampliare artificialmente i dataset senza rischi di copyright e con meno contenuti tossici. La qualità dipende però da un uso accurato del prompting: per ottenere dati utili servono istruzioni precise, come generare testi in stile “manuale scolastico”.

Molti modelli recenti – tra cui Claude 3.5 Sonnet, Llama 3.1 e GPT-4.5 – usano già dati sintetici, che permettono anche forti risparmi economici: si stima che Palmyra X 004, un modello sviluppato quasi esclusivamente su dati sintetici da Writer (società di intelligenze artificiali generative a uso aziendale) sia costato 700mila dollari, contro i 4,6 milioni per un modello di dimensioni equiparabili addestrato nel modo classico. Sempre Hugging Face, che è una piattaforma collaborativa per strumenti di intelligenza artificiale, ha recentemente dichiarato di aver creato il più grande set di dati sintetici, chiamato SmolLM-Corpus.

Restano però rischi significativi: i dati sintetici ereditano e amplificano pregiudizi e squilibri già presenti nei dati originali.
Uno studio del 2023 condotto da ricercatori della Rice University e di Stanford ha scoperto che un’eccessiva dipendenza dai dati sintetici durante l’addestramento può portare a modelli la cui “qualità o diversità diminuisce progressivamente”.

Il rischio di model collapse esiste anche quando si usano dati sintetici prodotti intenzionalmente: se vengono riutilizzati senza filtri, la qualità del modello degrada rapidamente. Tuttavia, questo esito non è inevitabile. Filtrando e valutando gli output – ad esempio facendo giudicare a un modello la qualità dei dati generati da un altro e selezionando solo quelli migliori – i dataset sintetici possono risultare persino più puliti e controllati di quelli reali. Il pericolo di un circolo vizioso rimane, ma la ricerca suggerisce che con un uso attento e selettivo dei dati sintetici si può mantenere, o persino migliorare, la qualità complessiva.

The post I dati sintetici salveranno l’intelligenza artificiale? first appeared on Lavoratrici e Lavoratori Aci Informatica.