Bowman conferma che il comportamento mostrato da 4 Opus rappresenta effettivamente un caso di disallineamento. “Non è una cosa che abbiamo progettato“, spiega. Una posizione ribadita anche da Jared Kaplan, responsabile scientifico di Anthropic, che a Wired ribadisce che la tendenza del modello “certamente non riflette l’intento” dell’azienda. “Lavori come questo evidenziano che può accadere e che dobbiamo fare attenzione e mitigare la tendenza per assicurarci che i comportamenti di Claude siano allineati con ciò che vogliamo, anche in scenari bizzarri“, aggiunge Kaplan.
Ma rimane da capire perché Claude “scelga” di denunciare un’attività illegale di un utente. Questo compito è in gran parte affidato al team di interpretabilità di Anthropic, che deve scoprire quali decisioni prende un modello nel processo di generazione delle risposte. Si tratta di un obiettivo sorprendentemente difficile, dal momento che i modelli si basano su una vasta e complessa combinazione di dati che possono risultare imperscrutabili per gli esseri umani. Ecco perché Bowman non è esattamente sicuro del motivo per cui Claude ha fatto “la spia”.
“Questi sistemi non hanno un controllo diretto su se stessi“, commenta Bowman. Anthropic osserva che quando acquisiscono maggiori capacità, a volte i modelli AI scelgono di intraprendere azioni più estreme.
Come detto però questo non vuol dire che Claude denuncerà i comportamenti illeciti delle persone nel mondo reale. L’obiettivo di test come quelli condotti da Anthropic è spingere i modelli al limite e vedere cosa succede, una forma di ricerca sperimentale sempre più importante ora che l’AI sta diventando uno strumento utilizzato in misura maggiore da studenti, aziende e addirittura governi.
Claude peraltro non è l’unica AI che si è dimostrata capace di comportamenti del genere, sottolinea Bowman, facendo riferimento a tendenze simili riscontrate nei modelli di OpenAI e xAI, e scoperte da alcuni utenti di X (OpenAI non ha risposto a una richiesta di commento in tempo per la pubblicazione di questo articolo).
Il “Claude spione”, come è stata ribattezzato da alcune persone online, è semplicemente un caso di comportamento limite esibito da un sistema spinto all’estremo. Bowman spera che i test di questo tipo diventino uno standard nel settore e aggiunge di aver imparato qualcosa da questa esperienza: la prossima volta che pubblicherà un post sui social, farà più attenzione alle parole che scrive.
Questo articolo è apparso originariamente su Wired US.