Bignami, concetti base degli LLM (parte prima)
Walter Quattrociocchi ha pubblicato un bignamino di concetti base degli LLM.
(ovvero: capire in 90 secondi un LLM e sembrare competenti a cena senza coprire
l’abisso delle proprie lacune con il pensiero circolare e le supercazzole
pop-filosofiche sull’etica dei termosifoni col cimurro)
Un LLM non è un pensatore profondo: è un sistema statistico addestrato su enormi
quantità di testo per modellare le regolarità del linguaggio, senza accesso
diretto al mondo reale. Tutto quello che fa è empiricamente descrivibile e
riproducibile: nessuna magia, nessun “spirito” emergente.
Riporto di seguito i concetti. L'originale si può leggere su Linkedin
Correlazione
Due parole sono “amiche” se nei dati compaiono insieme più spesso di quanto
accadrebbe per puro caso. Non serve sapere cosa significhino: il modello rileva
che “pizza” e “mozzarella” si presentano insieme molto più di “pizza” e
“batteria dell’auto” e registra quella regolarità. Ogni parola è un vettore in
uno spazio con centinaia di dimensioni; la vicinanza riflette la probabilità di
apparire in contesti simili.
Processo stocastico
Quando scrive, un LLM non applica logica o ragionamento causale: genera parole
campionando dalla distribuzione di probabilità appresa per il contesto. Se il
testo è “Il gatto sta…”, la distribuzione assegnerà alta probabilità a
“dormendo” e bassa a “pilotando un aereo”. Parametri come temperature, top-k o
nucleus sampling introducono variabilità. È una catena di Markov di ordine
elevato: chi sostiene che “ragiona” deve spiegare in che senso un campionamento
possa costituire ragionamento.
Ottimizzazione
L’abilità dell’LLM deriva dalla minimizzazione di una funzione di perdita
(tipicamente la cross-entropy) tra le previsioni e i dati reali. Attraverso il
gradient descent, miliardi di parametri vengono regolati per ridurre l’errore di
previsione sul prossimo token. Dopo trilioni di iterazioni, l’output diventa
statisticamente indistinguibile dal testo umano.
Transformer
Architettura alla base degli LLM. Il self-attention valuta quanto ogni parola
sia rilevante rispetto a tutte le altre del contesto, non solo a quelle vicine.
A differenza delle vecchie reti sequenziali, il Transformer guarda l’intera
sequenza in parallelo, mantenendo il contesto anche a distanza, accelerando
l’addestramento e gestendo testi lunghi.
Allucinazioni
Il modello può produrre frasi false ma plausibili perché non confronta le uscite
con il mondo reale. L’accuratezza è un effetto collaterale, non un vincolo
progettuale.
Scaling
La potenza di un LLM cresce con parametri, dati e calcolo (scaling laws). Più
grande non significa “più intelligente”: significa solo un vocabolario
statistico più ricco e preciso.
La cosa affascinante non è che stia emergendo una mente, ma che sappiamo
codificare in forma computabile l’intelligenza implicita nel linguaggio. Quel
linguaggio lo abbiamo generato noi: un LLM è il riflesso statistico della nostra
produzione linguistica, organizzato così bene da sembrare vivo, ma resta un
simulatore di linguaggio umano.