Come "Pensa" la MacchinaUn LLM smontato pezzo per pezzo. Tokenizzazione, embeddings, attention,
hallucinations. Ollama in locale, zero fuffa.
la maggior parte degli articoli che descrivono il funzionamento degli LLM (large
Language Model) sono poco attendibili. "L'AI capisce il contesto." "I neuroni si
attivano come nel cervello." "Il modello ragiona." Metafore colorate,
infografiche carine con le frecce, zero formule, zero codice, zero esperimenti.
Gente che spiega cose che non capisce, usando parole che non significano quello
che pensano. Una catena di pappagalli che scrivono articoli sui pappagalli.
Allora lo ha scritto Andrea Amani aka The Pirate un articolo che spiega gli LLM.
Ha smontato la macchina pezzo per pezzo. "Ho Ollama sul Mac con una decina di
modelli. Scelgo il più piccolo: llama3.1:8b, 8 miliardi di parametri, 4.9
gigabyte su disco. Il più facile da maneggiare senza sbatti, e tanto
l'architettura è identica per tutti: che siano 8 miliardi o 405 miliardi, il
meccanismo è lo stesso. Cambiano le dimensioni delle matrici, non come funziona
la macchina. Lo apro dal terminale, guardo i byte, e seguo il percorso completo:
dal testo che entra al testo che esce. Ogni passaggio, ogni formula, ogni
decisione matematica. Niente metafore del cervello. Niente fuffa. Se vuoi capire
come funziona una cosa, la smonti. Non leggi chi ne scrive. "
leggi l'articolo sul sito di The Pirate