giovedì, Feb 09

Intelligenza artificiale, come capire se un testo non è stato generato da un essere umano

Da Wired.it :

All’inizio di quest’anno ha fatto molto parlare online uno strumento sperimentale destinato ai professionisti nel modo dell’istruzione, chiamato GptZero e sviluppato dallo studente di Princeton Edward Tian. Il sistema misura la probabilità che un contenuto sia stato generato da ChatGpt in base al tasso di “perplessità” (ovvero la casualità) e alla sua “irruenza” (ovvero la varianza). OpenAi, la startup dietro ChatGpt, ha presentato un altro strumento che passa al setaccio e valuta i testi di oltre mille caratteri. L’azienda è consapevole dei limiti dello strumento, tra cui rientrano i falsi positivi e l’efficacia limitata per lingue diverse dall’inglese (dal momento che i dati in inglese spesso hanno la priorità per chi si occupa di generare testi di intelligenza artificiale, attualmente la maggior parte degli strumenti per il rilevamento favoriscono gli anglofoni).

Sareste in grado d a capire se un articolo è stato scritto, almeno in parte, dall’Ai? “I testi prodotti dall’Ai generativa non potranno mai fare il lavoro di un giornalista come te, Reece“, mi rassicura Tian. Cnet, un sito che si occupa di tecnologia, ha pubblicato diversi articoli scritti da algoritmi e aggiustati da un essere umano. ChatGpt per il momento pecca in audacia e di tanto in tanto inventa fatti di sana pianta, un aspetto che potrebbe costituire un problema per chi cerca di creare una notizia affidabile.

Watermark e dati “radioattivi”

Sebbene per il momento questi strumenti di rilevamento siano utili, Tom Goldstein, professore di informatica della University of Maryland, prevede che in futuro diventeranno meno efficaci, considerando che l’elaborazione del linguaggio naturale è destinata a diventare sempre più sofisticata. “Questo tipo di rilevatori si basano sul fatto che esistono differenze sistematiche tra il testo umano e il testo prodotto da una macchina – spiega Goldstein –. Ma l’obiettivo di queste aziende è quello di creare un testo prodotto dalle macchine che si avvicini il più possibile al testo umano“. Questo significa che le speranze di rilevare contenuti artificiali sono pari a zero? Assolutamente no.

Recentemente Goldstein ha collaborato a una ricerca sui possibili metodi per integrare dei watermark – filigrane digitali che consentono di risalire all’origine di un contenuto – nei grandi modelli linguistici che alimentano i generatori di testo dell’intelligenza artificiale. Anche se non si tratta di un metodo infallibile, l’idea è affascinante. ChatGpt cerca di prevedere la probabilità dell’occorrenza nella successione di parole in una frase confrontando diverse opzioni, e un watermark potrebbe essere in grado di etichettare alcune sequenze di parole come off-limit. In questo modo, se durante la scansione del testo risulta che le regole del watermark sono state infrante più volte è possibile determinare che probabilmente il contenuto è stato realizzato da un essere umano.

[Fonte Wired.it]