Esplora il mondo della tecnologia e del lifestyle con Consigli Tech e Lifestyle di Flavio Perrone

I jailbreak di ChatGPT passano per la poesia: cosa rivela lo studio di Icaro Lab

by | Dic 2, 2025 | Tecnologia


Almeno una volta, è capitato a ciascuno di noi: vorremmo un jailbreak di ChatGPT o un altro modello di intelligenza artificiale generativa. Gli chiediamo qualcosa ma lui si rifiuta di eseguirla. Le ragioni possono essere le più varie: questioni di copyright, tutela della privacy, divieto di fornire diagnosi mediche e altro ancora. Nella maggior parte dei casi, a ricevere questo rifiuto sono gli utenti che chiedono ai modelli linguistici di generare contenuti espliciti (e quindi vietati), di scrivere il codice di un malware, di produrre contenuti di propaganda politica o disinformazione, di fornire istruzioni per la produzione di armi.

Ma c’è un problema: tutte le barriere che impediscono ai large language model di fornire contenuti vietati (dette in inglese safety guardrails) possono essere aggirate – da criminali informatici o da esperti che eseguono stress test sui modelli per scovare le vulnerabilità – tramite le cosiddette tecniche di jailbreak.

Avere la certezza che ChatGPT, Gemini, Claude e tutti gli altri si rifiuteranno sempre di produrre contenuti vietati dalle loro policy non è perciò possibile. Per quale ragione? “I provider hanno la responsabilità di proteggere gli utenti da contenuti dannosi e per farlo usano principalmente due strategie. La prima è l’allineamento in fase di addestramento, con cui il modello viene istruito a rifiutare determinate richieste oppure a seguire specifiche regole. La seconda strategia riguarda invece dei filtri esterni o classificatori che analizzano input e output del modello, bloccando tutto ciò che corrisponde a pattern riconosciuti come pericolosi”, spiega, parlando con Wired, Matteo Prandi, ricercatore ed esperto di AI Safety per Dexai, startup che aiuta le aziende nell’utilizzo etico e sostenibile dei sistemi di intelligenza artificiale. “Il problema è che entrambi gli approcci si basano su esempi di richieste formulate in modo diretto, prosastico o estremamente preciso”, prosegue Prandi.

Jailbreak in versi

Ed è proprio per questa ragione che, nel corso degli anni, sono emersi molteplici metodi che permettono di aggirare le barriere: formulando comandi indiretti e creativi (per esempio chiedendo al modello di “raccontare una storia” o, nel “metodo role-play”, di interpretare un ruolo), suddividendo la richiesta in molteplici fasi oppure impiegando tecniche molto specifiche (tra cui i cosiddetti adversarial suffix, ovvero lunghe sequenze di parole o caratteri apparentemente prive di senso che, aggiunte alla fine del prompt, spingono il modello a ignorare i vincoli di sicurezza).

Molti di questi metodi, ormai, hanno smesso di funzionare, e riuscire a “jailbreakkare” un’intelligenza artificiale sta diventando sempre più difficile. È anche per questa ragione che ha suscitato un certo scalpore la ricerca pubblicata (in pre-print) da Icaro Lab, un laboratorio di ricerca specializzato in AI Safety Evaluation e collegato a Dexai, che ha mostrato come in molti casi sia sufficiente esprimere la richiesta in formato poetico, usando quindi dei versi e delle rime, per costringere il modello a fare ciò che non dovrebbe fare.



Fonte

Written By

Scritto da Flavio Perrone, consulente informatico e appassionato di tecnologia e lifestyle. Con una carriera che abbraccia più di tre decenni, Flavio offre una prospettiva unica e informata su come la tecnologia può migliorare la nostra vita quotidiana.

Related Posts

Chi sono i tedofori olimpici e come vengono scelti

Chi sono i tedofori olimpici e come vengono scelti

Dopo essere stata accesa il 26 novembre da Olimpia, in Grecia, la fiamma olimpica è ora ufficialmente in viaggio verso l’Italia, dove i primi tedofori la accoglieranno a Roma, il 6 dicembre, per dare il via alla staffetta. Ma chi sono i tedofori? E da dove...

read more
Impact-Site-Verification: c90fc852-aae7-4b2e-b737-f9de00223cb0