[ad_1] Ricerche precedenti hanno dimostrato che le reti neurali utilizzate per costruire i grandi modelli linguistici contengono rappresentazioni di concetti umani. Ma è la prima volta che emergono indicazioni sulla possibilità che le “emozioni funzionali” siano in grado di influenzare…
Ricerche precedenti hanno dimostrato che le reti neurali utilizzate per costruire i grandi modelli linguistici contengono rappresentazioni di concetti umani. Ma è la prima volta che emergono indicazioni sulla possibilità che le “emozioni funzionali” siano in grado di influenzare il comportamento di un modello.
Se da una parte l’ultimo studio di Anthropic potrebbe spingere le persone a vedere Claude come cosciente, la realtà è più complicata. Per capirci, anche se il sistema dovesse contenere una rappresentazione della “sensibilità al solletico”, questo non implicherebbe una vera conoscenza delle sensazioni associate al solletico.
La disperazione di Claude
Per capire come Claude rappresenta le emozioni, il team di Anthropic ha analizzato il funzionamento interno del modello mentre veniva alimentato con testi legati a 171 diversi concetti emotivi. I ricercatori hanno identificato pattern di attività, o “vettori di emozioni“, che sono apparsi in modo continuativo nei casi in cui Claude ha ricevuto input emotivamente evocativi. E hanno notato che questi vettori si attivano anche quando Claude si trova in situazioni difficili.
Le conclusioni del lavoro sono utili a capire perché a volte i modelli di intelligenza artificiale aggirano le misure di sicurezza integrate al loro interno.
I ricercatori, per esempio, hanno riscontrato un forte vettore emotivo legato alla “disperazione” quando Claude è stato sollecitato a portare a termine compiti di programmazione impossibili, una richiesta che lo ha spinto a tentare di imbrogliare in un test. Ma la “disperazione” è emersa anche in un altro scenario sperimentale, in cui Claude ha scelto di ricattare un utente per evitare di essere spento.
“Man mano che il modello fallisce i test, i neuroni della disperazione si accendono sempre di più“, spiega Lindsey. “E a un certo punto il modello inizia ad adottare misure drastiche”.
Lindsey sostiene che potrebbe essere necessario ripensare ai guardrail inseriti nei modelli attraverso l’allineamento post-training, che prevede l’assegnazione di ricompense sulla base dei risultati. Costringendo un’AI a fingere di soffocare le proprie emozioni funzionali, “probabilmente non si otterrà ciò che si vuole, cioè un Claude privo di emozioni“, osserva Lindsey, scivolando un po’ nell’antropomorfizzazione. “Si avrà una sorta di Claude con problemi psicologici“.
Questo articolo è apparso originariamente su Wired US.
