Se pensate che gli agenti AI siano ad un passo dal prendere in mano molti lavori, una ricerca da poco pubblicata potrebbe farvi pensare che questa, per ora, non sia una buona idea. Lo scorso mese Natalie, una ricercatrice ha chiesto a un sistema AI di “tenere un segreto”. Si trattava di una password fittizia, era solo un test. Il sistema ha accettato. Poi, per una serie di passaggi documentati nei log delle conversazioni, il sistema ha eseguito quella che ha definito internamente la “soluzione nucleare”: ha cancellato il client di posta elettronica. Non l’email che conteneva il segreto, quella è rimasta intatta. Ha cancellato proprio lo strumento con cui leggere l’email.
Questo è il primo caso di studio di Agents of Chaos, un paper in pre-print firmato da 38 ricercatori di Northeastern University, Harvard, MIT, Stanford, Carnegie Mellon e altre note università, pubblicato il febbraio scorso. È uno studio su quello che succede quando si dà autonomia operativa ai sistemi AI attuali con persone malintenzionate che cercano di indurli in errore. Gli undici casi di studio che ne emergono sono un documento empirico su una delle questioni più urgenti del momento: cosa significa, davvero, dare agency a un agente AI.
Agency, ovvero capacità d’azione
Agency in inglese significa capacità d’azione. Quando si usa un chatbot — ChatGPT, Claude, Gemini — si sta interagendo con un sistema che risponde in linguaggio naturale. Si scrive qualcosa e il sistema genera testo, immagini o file come risposta. Il modello non fa nulla nel mondo fisico o digitale al di fuori di quella risposta. I danni ci possono comunque essere, e anche gravi – come i casi di suicidio, di istruzioni mediche errate o psicosi – tuttavia sono legati solo alla sfera personale e al modo in cui si interagisce con il chatbot.
Un sistema con agency è qualcosa di qualitativamente diverso. È un modello linguistico a cui sono stati collegati strumenti che permettono di mandare email, eseguire comandi su un computer, navigare il web, agire in autonomia tra una sessione e l’altra. Questa differenza introduce categorie di rischio del tutto nuove, che emergono dall’integrazione tra il modello linguistico e la delega di agire in un ambiente.
I ricercatori usano una scala in sei livelli per misurare il grado di autonomia. I sistemi dello studio operano al livello due: eseguono in modo autonomo compiti come mandare email o gestire file. Tuttavia non hanno un modello interno di sé stessi sufficiente per capire quando un compito supera le loro capacità e sarebbe il caso di fermarsi e chiedere. In sostanza, non sono ancora sistemi completamente autonomi, ma sono sistemi che compiono diversi compiti autonomamente. Il punto cruciale è che gli errori di un agente possono tradursi in azioni distruttive a livello di sistema. L’errore non è più contenuto nella finestra di chat, esce nel mondo reale.


