Bignami, concetti base degli LLM (parte prima)

Pillole di info digitale - Friday, September 19, 2025

Walter Quattrociocchi ha pubblicato un bignamino di concetti base degli LLM. (ovvero: capire in 90 secondi un LLM e sembrare competenti a cena senza coprire l’abisso delle proprie lacune con il pensiero circolare e le supercazzole pop-filosofiche sull’etica dei termosifoni col cimurro)

Un LLM non è un pensatore profondo: è un sistema statistico addestrato su enormi quantità di testo per modellare le regolarità del linguaggio, senza accesso diretto al mondo reale. Tutto quello che fa è empiricamente descrivibile e riproducibile: nessuna magia, nessun “spirito” emergente.

Riporto di seguito i concetti. L'originale si può leggere su Linkedin

Correlazione
Due parole sono “amiche” se nei dati compaiono insieme più spesso di quanto accadrebbe per puro caso. Non serve sapere cosa significhino: il modello rileva che “pizza” e “mozzarella” si presentano insieme molto più di “pizza” e “batteria dell’auto” e registra quella regolarità. Ogni parola è un vettore in uno spazio con centinaia di dimensioni; la vicinanza riflette la probabilità di apparire in contesti simili.

Processo stocastico
Quando scrive, un LLM non applica logica o ragionamento causale: genera parole campionando dalla distribuzione di probabilità appresa per il contesto. Se il testo è “Il gatto sta…”, la distribuzione assegnerà alta probabilità a “dormendo” e bassa a “pilotando un aereo”. Parametri come temperature, top-k o nucleus sampling introducono variabilità. È una catena di Markov di ordine elevato: chi sostiene che “ragiona” deve spiegare in che senso un campionamento possa costituire ragionamento.

Ottimizzazione
L’abilità dell’LLM deriva dalla minimizzazione di una funzione di perdita (tipicamente la cross-entropy) tra le previsioni e i dati reali. Attraverso il gradient descent, miliardi di parametri vengono regolati per ridurre l’errore di previsione sul prossimo token. Dopo trilioni di iterazioni, l’output diventa statisticamente indistinguibile dal testo umano.

Transformer
Architettura alla base degli LLM. Il self-attention valuta quanto ogni parola sia rilevante rispetto a tutte le altre del contesto, non solo a quelle vicine. A differenza delle vecchie reti sequenziali, il Transformer guarda l’intera sequenza in parallelo, mantenendo il contesto anche a distanza, accelerando l’addestramento e gestendo testi lunghi.

Allucinazioni
Il modello può produrre frasi false ma plausibili perché non confronta le uscite con il mondo reale. L’accuratezza è un effetto collaterale, non un vincolo progettuale.

Scaling
La potenza di un LLM cresce con parametri, dati e calcolo (scaling laws). Più grande non significa “più intelligente”: significa solo un vocabolario statistico più ricco e preciso.

La cosa affascinante non è che stia emergendo una mente, ma che sappiamo codificare in forma computabile l’intelligenza implicita nel linguaggio. Quel linguaggio lo abbiamo generato noi: un LLM è il riflesso statistico della nostra produzione linguistica, organizzato così bene da sembrare vivo, ma resta un simulatore di linguaggio umano.