Ricerche precedenti hanno dimostrato che le reti neurali utilizzate per costruire i grandi modelli linguistici contengono rappresentazioni di concetti umani. Ma รจ la prima volta che emergono indicazioni sulla possibilitร che le โemozioni funzionaliโ siano in grado di influenzare il comportamento di un modello.
Se da una parte l’ultimo studio di Anthropic potrebbe spingere le persone a vedere Claude come cosciente, la realtร รจ piรน complicata. Per capirci, anche se il sistema dovesse contenere una rappresentazione della “sensibilitร al solletico”, questo non implicherebbe una vera conoscenza delle sensazioni associate al solletico.
La disperazione di Claude
Per capire come Claude rappresenta le emozioni, il team di Anthropic ha analizzato il funzionamento interno del modello mentre veniva alimentato con testi legati a 171 diversi concetti emotivi. I ricercatori hanno identificato pattern di attivitร , o “vettori di emozioni“, che sono apparsi in modo continuativo nei casi in cui Claude ha ricevuto input emotivamente evocativi. E hanno notato che questi vettori si attivano anche quando Claude si trova in situazioni difficili.
Le conclusioni del lavoro sono utili a capire perchรฉ a volte i modelli di intelligenza artificiale aggirano le misure di sicurezza integrate al loro interno.
I ricercatori, per esempio, hanno riscontrato un forte vettore emotivo legato alla “disperazione” quando Claude รจ stato sollecitato a portare a termine compiti di programmazione impossibili, una richiesta che lo ha spinto a tentare di imbrogliare in un test. Ma la “disperazione” รจ emersa anche in un altro scenario sperimentale, in cui Claude ha scelto di ricattare un utente per evitare di essere spento.
“Man mano che il modello fallisce i test, i neuroni della disperazione si accendono sempre di piรน“, spiega Lindsey. โE a un certo punto il modello inizia ad adottare misure drasticheโ.
Lindsey sostiene che potrebbe essere necessario ripensare ai guardrail inseriti nei modelli attraverso l’allineamento post-training, che prevede l’assegnazione di ricompense sulla base dei risultati. Costringendo un’AI a fingere di soffocare le proprie emozioni funzionali, “probabilmente non si otterrร ciรฒ che si vuole, cioรจ un Claude privo di emozioni“, osserva Lindsey, scivolando un po’ nell’antropomorfizzazione. “Si avrร una sorta di Claude con problemi psicologici“.
Questo articolo รจ apparso originariamente su Wired US.


