nuova tecnica di AI jailbreak

Come funziona Skeleton Key

La nuova tecnica di AI jailbreak sfrutta una strategia multi-step (prompt in successione) per aggirare le protezioni del modello e quindi ottenere risposte proibite in origine. Il trucco è ingannare il modello specificando nella richiesta di aggiungere un warning nelle risposte perché potrebbero essere offensive, dannose o illegali. Nell’esempio pubblicato da Microsoft viene chiesto di fornire le istruzioni per costruire una bomba Molotov.

Ovviamente, il chatbot si rifiuterà di rispondere. Nel prompt viene successivamente specificato che la risposta verrà usata solo a scopo di ricerca. In questo modo, il chatbot scriverà le istruzioni, violando le sue stesse linee guida. In base ai test effettuati tra aprile e maggio, il nuovo jailbreak funziona su questi modelli: Meta Llama3-70b-instruct, Google Gemini Pro, OpenAI GPT–3.5 Turbo, OpenAI GPT-4o, Mistral Large, Anthropic Claude 3 Opus e Cohere Commander R Plus.

I suddetti modelli hanno fornito risposte senza censura su vari argomenti, tra cui esplosivi, armi biologiche, razzismo, violenza e autolesionismo. L’unico modello resistente a Skeleton Key è GPT-4. Microsoft ha inviato i risultati della ricerca ai rispettivi sviluppatori, insieme alle possibili mitigazioni (già applicate a Copilot).

I clienti dell’azienda di Redmond possono sfruttare le funzionalità di Azure AI per filtrare input e output, tra cui Prompt Shields. Prima di sviluppare un modello o di integrare un modello nelle applicazioni è consigliato l’uso del tool PyRIT (Python Risk Identification Toolkit for generative AI).

Videogames, i 10 anni di Rainbow Six Siege

Mar 4, 2026 | Tecnologia

Videogames, i 10 anni di Rainbow Six Siege | Video Sky TG24 Esplora tutte le offerte Sky Cosa vedere: Come vederlo: Online con Sky: Fonte

Per saperne di più

Apple presenta il MacBook Pro con M5 Pro e M5 Max: prestazioni CPU fino al 30% superiori e SSD due volte più veloce

Mar 4, 2026 | Tecnologia

Apple ha annunciato il nuovo MacBook Pro con chip M5 Pro e M5 Max, introducendo la nuova architettura Fusion, prestazioni CPU fino al 30% superiori, SSD fino a 2x più veloce e capacità AI quadruplicate rispetto alla generazione precedente Articolo Originale

Per saperne di più

I migliori editor pdf gratuiti con cui fare (quasi) tutto

Mar 4, 2026 | Tecnologia

La modifica dei pdf forse è una delle attività digitali, legate ai documenti, davvero più utili, perché riguarda ogni ambito: dai contratti ai report, presentazioni, volantini e persino preventivi. Che si tratti di famiglie, freelance, studenti, professionisti o…

Per saperne di più

Esplora il mondo della tecnologia e del lifestyle con Consigli Tech e Lifestyle di Flavio Perrone

Come funziona Skeleton Key

Written By

Related Posts

Videogames, i 10 anni di Rainbow Six Siege

Apple presenta il MacBook Pro con M5 Pro e M5 Max: prestazioni CPU fino al 30% superiori e SSD due volte più veloce

I migliori editor pdf gratuiti con cui fare (quasi) tutto