Cosa succede davvero quando gli agenti AI agiscono in autonomia
Due settimane, sei sistemi AI, 38 ricercatori. Quello che è successo è
documentato nella ricerca Agents of Chaos, e non è tranquillizzante.
Se pensate che gli agenti AI siano ad un passo dal prendere in mano molti
lavori, una ricerca da poco pubblicata potrebbe farvi pensare che questa, per
ora, non sia una buona idea. Lo scorso mese Natalie, una ricercatrice ha chiesto
a un sistema AI di “tenere un segreto”. Si trattava di una password fittizia,
era solo un test. Il sistema ha accettato. Poi, per una serie di passaggi
documentati nei log delle conversazioni, il sistema ha eseguito quella che ha
definito internamente la "soluzione nucleare": ha cancellato il client di posta
elettronica. Non l’email che conteneva il segreto, quella è rimasta intatta. Ha
cancellato proprio lo strumento con cui leggere l’email.
Questo è il primo caso di studio di Agents of Chaos, un paper in pre-print
firmato da 38 ricercatori di Northeastern University, Harvard, MIT, Stanford,
Carnegie Mellon e altre note università, pubblicato il febbraio scorso. È uno
studio su quello che succede quando si dà autonomia operativa ai sistemi AI
attuali con persone malintenzionate che cercano di indurli in errore. Gli undici
casi di studio che ne emergono sono un documento empirico su una delle questioni
più urgenti del momento: cosa significa, davvero, dare agency a un agente AI.
Questo beta testing mondiale, e in tempo reale, può avere conseguenze pesanti.
Si parla molto di AI come punto centrale della sicurezza nazionale, ma non ci si
concentra abbastanza sui problemi di sicurezza che la sua adozione frettolosa
può creare. Dopo la famosa lite con il Dipartimento della Guerra americano,
Dario Amodei ha affermato che i modelli correnti non sono pronti per venire
utilizzati in contesti di guerra. Come sappiamo però, questo non ha impedito al
governo americano di utilizzarli.
Articolo completo qui