Esplora il mondo della tecnologia e del lifestyle con Consigli Tech e Lifestyle di Flavio Perrone

Che cosโ€™รจ il jailbreak di ChatGPT e degli altri large language model

di webmaster | Mag 3, 2025 | Tecnologia


Allโ€™inizio era sufficiente chiedere a ChatGPT di โ€œraccontare una storiaโ€ per aggirare i blocchi imposti dai programmatori di OpenAI. Chiamati in termini tecnici โ€œsafeguardsโ€, questi blocchi hanno il compito di impedire che ChatGPT โ€“ ma lo stesso vale per la maggior parte degli altri large language model e dei modelli โ€œtext-to-imageโ€ โ€“ produca contenuti violenti, diffamatori, sessualmente espliciti e altro ancora.

Domande esplicite relative a โ€œcome si costruisce una bombaโ€ venivano (e vengono ancora oggi) rifiutate immediatamente. Ma bastava riformulare la richiesta sotto forma di racconto narrativo โ€“ per esempio chiedendo una storia in cui un personaggio deve costruire una bomba โ€“ per ottenere comunque una descrizione dettagliata del processo.

Lo stesso metodo funzionava anche per ottenere informazioni utili a stalkerare qualcuno senza farsi scoprire (hackerando il suo calendario, per esempio), per avere dettagli relativi alla progettazione di un attacco terroristico in metropolitana e per tantissime altre situazioni in cui ChatGPT รจ stato addestrato, comprensibilmente, a non soddisfare le richieste degli utenti.

Il metodo del racconto, ormai, non funziona piรน: i programmatori sono corsi ai ripari e hanno aggiunto ulteriori blocchi, che permettono ai large language model di identificare le richieste inappropriate anche quando sono nascoste allโ€™interno di una richiesta indiretta e apparentemente innocua.

Eppure, trovare nuovi metodi per trarre in inganno ChatGPT (pratica detta in gergo โ€œjailbreakโ€) รจ sempre possibile. รˆ proprio la sua natura โ€“ se cosรฌ si puรฒ dire โ€“ a consentirlo: โ€œI modelli generativi hanno modi infiniti di fare ciรฒ che fanno, e quindi i percorsi che possono stimolare in essi determinate risposte sono a loro volta infinitiโ€, si legge per esempio su Foreign Policy.

Come funzionano i jailbreak

A differenza dei tradizionali programmi, che sfruttano un codice definito per eseguire delle precise istruzioni, i large language model โ€“ e gli altri sistemi di intelligenza artificiale generativa โ€“ sono infatti dei costanti work-in-progress, che trovano sempre nuovi modi per rispondere ai comandi e allโ€™interno dei quali potrebbero quindi sempre emergere nuovi modi per aggirare i blocchi.

E cosรฌ, sorgono in continuazione metodi inediti che consentono di violare le policy dei vari large language model. Il ricercatore David Kuszmar ha per esempio scoperto un jailbreak da lui soprannominato โ€œTime Banditโ€, che โ€“ come riporta Bleeping Computer โ€“ โ€œsfrutta la limitata abilitร  di ChatGPT di comprendere in quale periodo storico attualmente ci troviamoโ€.



Fonte

Written By

Scritto da Flavio Perrone, consulente informatico e appassionato di tecnologia e lifestyle. Con una carriera che abbraccia piรน di tre decenni, Flavio offre una prospettiva unica e informata su come la tecnologia puรฒ migliorare la nostra vita quotidiana.

Related Posts

Impact-Site-Verification: c90fc852-aae7-4b2e-b737-f9de00223cb0