lunedì, Apr 08

OpenAI usa i video di YouTube per addestrare GPT-4

Da Punto-Informatico.it :

Il CEO di YouTube aveva parlato della possibile violazione (non confermata) dei termini del servizio da parte di OpenAI. Secondo il New York Times, l’azienda guidata da Sam Altman ha usato le trascrizioni dei video per addestrare GPT-4. Questa soluzione sarebbe legata alla scarsità di dati disponibili.

Violazioni di regole e copyright

Il New York Times afferma che, a fine 2021, OpenAI ha esaurito le fonti affidabili di testo in lingua inglese accessibili su Internet. I ricercatori dell’azienda di San Francisco hanno quindi sviluppato Whisper, un tool di riconoscimento vocale che permette la trascrizione dell’audio.

Sotto la guida di Greg Brockman, Presidente di OpenAI, il team ha trascritto oltre un milione di ore di video da YouTube e utilizzato il testo come input per l’addestramento di GPT-4, nonostante i termini del servizio vietino il download e lo scraping non autorizzato.

Secondo le fonti del New York Times, YouTube ha rilevato l’accesso ai video da parte di OpenAI, ma non c’è stato nessun intervento perché anche Google ha trascritto i video per addestrare i suoi modelli, violando il copyright (i diritti d’autore dei creatori dei video). Un portavoce di Google ha dichiarato che sono stati sottoscritti accordi con i creatori.

Per addestrare i modelli IA più recenti servono più dati. Google ha modificato i termini dei servizi e della privacy per aver accesso ai dati pubblici generati dagli utenti su Maps, Documenti, Fogli, Presentazioni e altre app gratuite. Il portavoce di Google ha dichiarato che viene chiesto un consenso esplicito agli utenti.

La scarsità di dati è un problema che riguarda anche Meta. L’azienda di Menlo Park vuole evitare denunce per violazione di copyright, quindi i dirigenti avevano suggerito di acquistare Simon & Schuster, nota casa editrice statunitense venduta dalla casa madre (Paramount Global) al fondo KKR a fine ottobre 2023.

Una possibile soluzione al problema potrebbe essere l’uso di dati sintetici, ovvero dati generati da altri modelli IA, ma c’è il rischio di amplificare gli errori (allucinazioni). Al momento sono in corso sperimentazioni. Per l’addestramento servono ancora informazioni scritte da umani.

Fonte Punto Informatico Source link