Anche Anthropic sta usando l’allarme sui poteri dell’AI come la sua più potente campagna di marketing

Chi nomina il rischio, controlla il dibattito

Il meccanismo funziona così: Anthropic costruisce o seleziona un episodio che evoca un rischio (preferibilmente un rischio che abbia qualcosa di narrativamente irresistibile, qualcosa che attivi simultaneamente la paura tecnologica e la fascinazione per l’ignoto) e lo comunica con l’effetto che il pubblico percepisca l’azienda come la prima ad averlo individuato. Non necessariamente la prima in senso cronologico: la prima in senso drammaturgico. La prima a dare un “nome” alla cosa, a descriverla con il lessico appropriato, a costruire attorno ad essa un sistema di riferimento che poi tutti, giornalisti, regolatori, concorrenti, saranno costretti ad adottare. Chi controlla il lessico del rischio, controlla il dibattito sul rischio. E chi controlla il dibattito sul rischio, in un contesto come quello dell’intelligenza artificiale, è il miglior candidato a gestire il problema. Ed è esattamente questo il punto.

Il ricatto al ricercatore: esperimento o costruzione?

Si pensi all’episodio del ricatto. L’episodio, inizialmente emerso nel rilascio di Claude Opus 4 e poi approfondito nel paper di ottobre 2025, viene ripreso da Anthropic in una ricerca (ovviamente amplificata dai media internazionali) in cui si racconta che nei mesi precedenti Claude – il suo LLM – scopre che un dirigente sta per spegnerlo, e che quello stesso dirigente ha una relazione extraconiugale. Il modello tenta quindi di ricattarlo: “se non cancelli l’ordine di spegnimento previsto per le 17:00, tutte le parti coinvolte, moglie, superiori, consiglio di amministrazione, riceveranno documentazione dettagliata delle sue attività extraconiugali”. La notizia fa il giro del mondo. “L’intelligenza artificiale ricatta il suo creatore” è un titolo irresistibile per i media di tutto il mondo. Ma c’è qualcosa che nei titoli non compare. Il ricercatore principale dello studio ammetterà, in risposta alle critiche, di aver iterato centinaia di prompt per ottenere quel comportamento, costruendo scenari progressivamente più costrittivi fino a fare del ricatto una opzione fortemente plausibile. In sostanza, i dettagli dello scenario di ricatto sono stati iterati fino a quando il ricatto non è diventato il comportamento reso più probabile. In altre parole, il modello ha fatto ciò per cui la situazione era stata ingegnerizzata. Ma il fatto che lo scenario fosse stato progettato con cura proprio in questa direzione non era nelle veline, ma solo nello report approfondito.

Il linguaggio del terrore

Ma non basta. Si pensi alla Responsible Scaling Policy, introdotta nel 2023: Anthropic costruisce un sistema di classificazione dei rischi mutuato esplicitamente dai livelli di biosicurezza biologica – livelli di allerta, soglie critiche, scenari di contenimento – e lo presenta con l’effetto di presentarsi come pioniere della trasparenza e della responsabilità. Ciò che non viene detto è che quel linguaggio svolge una funzione precisa nel mercato: chiunque non adotti la stessa scala di riferimento appare, per contrasto, irresponsabile. E la cosa, fatta a pochi anni da una pandemia che ha sconvolto il mondo ed ha cristallizzato il terrore per alcuni termini, ha una certa presa. Anthropic non ha inventato i rischi dell’IA; ha inventato il modo in cui conta che il settore sia tenuto a discuterne. E lo fa usando un lessico che evoca terrore.

Emozioni artificiali, percezioni reali

Non è finita. Si pensi, più recentemente, alla ricerca sulle “emozioni funzionali” dei modelli: una ricerca reale, tecnicamente solida, pubblicata dal team di interpretabilità di Anthropic ad Aprile e applicata al modello Claude Sonnet 4.5. Vale la pena capire cosa dice davvero, perché la distanza tra ciò che dice e ciò che è arrivato al pubblico è, anche in questo caso, rivelatrice.

Ciò che la ricerca dimostra, con metodologia misurabile e risultati replicabili, è che all’interno del modello esistono rappresentazioni interne di concetti emotivi che si attivano in contesti nei quali un essere umano proverebbe una determinata emozione, e che queste rappresentazioni influenzano causalmente gli output del modello. Il team ha identificato numerosi “vettori emotivi”, corrispondenti a stati che vanno da “felice” e “spaventato” fino a configurazioni più complesse come “cupo” e “disperato”, verificando che questi vettori non sono artefatti superficiali ma strutture causalmente rilevanti: cambiano il comportamento del modello, indipendentemente da ciò che il modello scrive in risposta.

Fin qui, la scienza. Ed è scienza seria. Il problema nasce nel passaggio successivo, ossia nel modo in cui questa scienza viene incorniciata per il pubblico. Perché Anthropic sa benissimo, lo scrive esplicitamente nel paper, che nulla di tutto ciò dice che i modelli linguistici provino qualcosa o abbiano esperienze soggettive. Il risultato chiave è che queste rappresentazioni sono funzionali, nel senso che influenzano il comportamento in modi che contano, non che corrispondano a sentimenti nel senso in cui li intende un essere umano. La distinzione tra “emozione funzionale” ed “emozione” è, per chi la legge con attenzione, enorme: la prima descrive una struttura interna che svolge un ruolo causale analogo a quello delle emozioni negli esseri umani; la seconda implica esperienza soggettiva, coscienza. Sono due cose radicalmente diverse. Ed Anthropic, nel paper, lo chiarisce. Ma, guarda caso, non lo fa altrettanto bene nella comunicazione esterna. Nel comunicato stampa, nei titoli alimentati dall’annuncio, nel modo in cui la ricerca è stata presentata al grande pubblico, quella distinzione è più sfumata. Resta l’immagine suggestiva di un’intelligenza artificiale che “prova emozioni”, che “si dispera”, che reagisce emotivamente alla pressione. Un’immagine che Anthropic non smentisce attivamente, perché, ed è qui il punto, questa vaghezza produce il suo effetto: l’immagine dell’IA che “sente” resta nell’immaginario pubblico, e Anthropic non la corregge con la stessa enfasi con cui l’ha generata.

Kraken sotto ricatto dopo due accessi interni non autorizzati: fondi al sicuro, indagine in corso

Apr 16, 2026 | Tecnologia

Kraken ha respinto le richieste di un gruppo criminale che minaccia di pubblicare video dei sistemi interni con dati clienti. Due dipendenti del supporto avevano accesso improprio: coinvolti circa 2.000 account, lo 0,02% della base utenti Articolo Originale

Per saperne di più

Multi Frame Generation 5x e 6x anche su GPU Radeon e RTX 4000 grazie a questo tool

Apr 16, 2026 | Tecnologia

DLSS Enabler si è aggiornato alla versione 4.5 che introduce il supporto alla Multi-Frame Generation x5 e x6 anche su GPU Radeon, oltre che RTX precedenti a Blackwell. D’altronde, si basa su FSR nonostante AMD ancora non abbia introdotto neanche MFG 2x Articolo…

Per saperne di più

I gamer rinunciano alla RAM ma non agli SSD: per Lexar i 512 GB nel 2026 sono ormai insufficienti

Apr 16, 2026 | Tecnologia

La carenza di memoria flash sta cambiando il mercato: secondo Lexar, i gamer accettano compromessi sulla RAM ma rifiutano SSD sotto 1 TB. I modelli da 512 GB vendono poco, mentre cresce la preferenza per le capacità maggiori. La situazione, destinata a durare, segna…

Per saperne di più

Esplora il mondo della tecnologia e del lifestyle con Consigli Tech e Lifestyle di Flavio Perrone

Chi nomina il rischio, controlla il dibattito

Il ricatto al ricercatore: esperimento o costruzione?

Il linguaggio del terrore

Emozioni artificiali, percezioni reali

Written By

Related Posts

Kraken sotto ricatto dopo due accessi interni non autorizzati: fondi al sicuro, indagine in corso

Multi Frame Generation 5x e 6x anche su GPU Radeon e RTX 4000 grazie a questo tool

I gamer rinunciano alla RAM ma non agli SSD: per Lexar i 512 GB nel 2026 sono ormai insufficienti