Se l’intelligenza artificiale può diagnosticare i pazienti, a cosa servono i medici?(Fonte) Dhruv Khullar – 22 settembre 2025
I grandi modelli linguistici stanno trasformando la medicina, ma questa
tecnologia ha i suoi effetti collaterali.
I sondaggi hanno suggerito che molte persone hanno più fiducia nelle diagnosi
fornite dall’intelligenza artificiale che in quelle fornite dai professionisti.
Nel frattempo, solo negli Stati Uniti, le diagnosi errate rendono invalide
centinaia di migliaia di persone ogni anno; studi autoptici suggeriscono che
contribuiscano a circa un decesso su dieci.
All’inizio del Novecento, Richard Cabot, medico del Massachusetts General
Hospital, iniziò a tenere seminari per dimostrare il ragionamento clinico ai
tirocinanti. Un medico esperto riceveva la cartella clinica di un ex paziente e
si informava per ottenere maggiori dettagli sul caso. Se le informazioni fossero
state disponibili durante il ricovero ospedaliero del paziente, sarebbero state
rivelate. Gradualmente, il medico si avvicinava a una diagnosi che poteva essere
confrontata con le conclusioni finali dei patologi, spesso durante un’autopsia.
Le conferenze clinico-patologiche, o CPC, come vennero chiamate, divennero così
popolari che il New England Journal of Medicine ne pubblica le trascrizioni da
oltre un secolo. Rappresentano un gold standard del ragionamento diagnostico: se
si riesce a risolvere una CPC, si può risolvere quasi ogni caso.
I CPC hanno anche ispirato molti sforzi per insegnare la medicina alle macchine.
Alla fine degli anni Cinquanta, un informatico e un radiologo raggrupparono i
casi in base a sintomi e patologie. Proposero che un programma informatico
potesse analizzarli utilizzando strumenti matematici come la logica e la teoria
dei giochi. “I computer sono particolarmente adatti ad aiutare il medico a
raccogliere ed elaborare informazioni cliniche e a ricordargli diagnosi che
potrebbero aver trascurato”, scrissero in un articolo fondamentale su Science .
Negli anni Settanta, un informatico dell’Università di Pittsburgh sviluppò un
programma chiamato INTERNIST-1 , basato su una serie di conversazioni con un
brillante e intimidatorio medico di nome Jack Myers. (Myers era noto come Black
Jack, perché aveva bocciato molti nuovi medici durante gli esami di
abilitazione.) Myers “scelse un buon numero” di CPC per dimostrare il suo
ragionamento; INTERNIST-1 alla fine si dimostrò efficace quanto alcuni medici su
una varietà di casi. Ma i dettagli di un caso dovevano essere inseriti
meticolosamente nel computer, quindi ogni analisi poteva richiedere più di
un’ora. I ricercatori hanno concluso che “la forma attuale del programma non è
sufficientemente affidabile per le applicazioni cliniche”.
Poi sono arrivati i grandi modelli linguistici. L’anno scorso, Arjun Manrai,
informatico di Harvard, e Thomas Buckley, dottorando nel nuovo programma di
intelligenza artificiale in medicina dell’università, hanno iniziato a lavorare
su uno strumento didattico e di ricerca che avrebbe dovuto essere in grado di
risolvere praticamente qualsiasi CPC. Doveva essere in grado di citare la
letteratura, spiegarne la logica e aiutare i medici a riflettere su un caso
difficile. Manrai e Buckley hanno sviluppato una versione personalizzata di o3,
un “modello di ragionamento” avanzato di OpenAI, che si prende il tempo di
scomporre i problemi complessi in fasi intermedie prima di rispondere. Un
processo noto come generazione aumentata dal recupero, o RAG , estrae i dati da
fonti esterne prima che l’intelligenza artificiale elabori la sua risposta. Il
loro modello è un po’ come uno studente che consulta un libro di testo per
scrivere un articolo invece di scrivere a memoria. Hanno chiamato l’intelligenza
artificiale CaBot, in onore dell’inventore dei CPC.
A luglio, mi sono recato alla Countway Library of Medicine di Harvard per
assistere a uno scontro tra CaBot e un esperto diagnostico. L’evento mi ha
ricordato la partita a scacchi del 1997 tra il grande maestro Garry Kasparov e
Deep Blue, il supercomputer IBM che alla fine lo sconfisse. Daniel Restrepo, un
internista del Massachusetts General Hospital che era stato uno dei miei
compagni di corso durante la specializzazione, avrebbe gareggiato contro CaBot.
Manrai ha presentato il caso del giorno: un uomo di quarantun anni che era
arrivato in ospedale dopo circa dieci giorni di febbre, dolori muscolari e
caviglie gonfie. L’uomo aveva una dolorosa eruzione cutanea sugli stinchi ed era
svenuto due volte. Qualche mese prima, i medici gli avevano inserito uno stent
nel cuore. Una TAC ha mostrato noduli polmonari e linfonodi ingrossati nel
torace dell’uomo.
Restrepo (dopo vari arguti ragionamenti) ha sentenziato “Sindrome di Löfgren”.
La Löfgren è una rara manifestazione della sarcoidosi, una condizione
infiammatoria. Abbiamo appreso che l’uomo aveva assunto steroidi, che sopprimono
l’infiammazione, durante il ricovero in ospedale. Era migliorato, il che
suggerisce che la diagnosi fosse corretta. Il pubblico applaudì.
Manrai tornò sul podio. Restrepo aveva avuto sei settimane per preparare la sua
presentazione, spiegò con un sorriso. “Il Dott. CaBot ha avuto sei minuti”,
disse. Una diapositiva, generata dall’intelligenza artificiale, apparve sullo
schermo. Era intitolata “Quando caviglie, nodi e sincope si scontrano”. Manrai
premette Play e si sedette. Una voce femminile, il cui stile e cadenza erano
indistinguibili da quelli dei medici umani, iniziò a esaminare i farmaci e la
storia clinica del paziente. “Riassumendo”, ha detto CaBot (dopo vari arguti
ragionamenti), “la diagnosi più adatta è la sarcoidosi acuta, che si manifesta
come sindrome di Löfgren”.
l successo di CaBot è in contrasto con ciò che alcuni pazienti sperimentano
quando consultano i chatbot. Uno studio recente ha rilevato che GPT-4 di OpenAI
ha risposto in modo errato a domande mediche aperte in circa due terzi dei casi.
In un altro, GPT-3.5 ha diagnosticato erroneamente oltre l’ottanta per cento dei
casi pediatrici complessi. Nel frattempo, i principali modelli linguistici di
grandi dimensioni sono diventati molto meno propensi a includere clausole di
esclusione di responsabilità nelle loro risposte. Un’analisi ha rilevato che,
nel 2022, più di un quarto delle risposte a domande relative alla salute
includeva qualcosa come “Non sono qualificato per fornire consigli medici”.
Quest’anno, solo l’1% lo ha fatto. In un nuovo sondaggio, circa un quinto degli
americani ha affermato di aver ricevuto consigli medici dall’IA che in seguito
si sono rivelati errati. All’inizio di quest’anno, un centro antiveleni in
Arizona ha segnalato un calo del volume totale delle chiamate, ma un aumento dei
pazienti gravemente intossicati.
Quando Manrai e i suoi colleghi hanno testato l’IA su diverse centinaia di CPC
recenti, ne ha risolti correttamente circa il 60%, una percentuale
significativamente superiore a quella risolta dai medici in uno studio
precedente. Imparare a utilizzare l’intelligenza artificiale in campo medico
richiederà una scienza a sé stante. L’anno scorso, è stato coautore di uno
studio in cui alcuni medici hanno risolto casi con l’aiuto di ChatGPT. Non hanno
ottenuto risultati migliori rispetto ai medici che non hanno utilizzato il
chatbot. Il chatbot da solo, tuttavia, ha risolto i casi con maggiore
accuratezza rispetto agli esseri umani.
I sistemi che combinano strategicamente capacità umane e di intelligenza
artificiale sono stati descritti come centauri; la ricerca di Rodman suggerisce
che siano promettenti in medicina. Ma se gli strumenti di intelligenza
artificiale rimangono imperfetti e gli esseri umani perdono la capacità di
funzionare senza di essi – un rischio noto come “dequalificazione cognitiva” –
allora, per usare le parole di Rodman, “siamo nei guai”. In uno studio recente,
i gastroenterologi che hanno utilizzato l’intelligenza artificiale per rilevare
i polipi durante le colonscopie hanno mostrato risultati significativamente
peggiori nell’individuazione dei polipi stessi. “Se sei una persona che
scommette, dovresti formare medici che sappiano usare l’intelligenza artificiale
ma che sappiano anche pensare”, ha affermato Rodman.
The post Se l’intelligenza artificiale può diagnosticare i pazienti, a cosa
servono i medici? first appeared on Lavoratrici e Lavoratori Aci Informatica.