Seleziona una pagina


Sempre più società impegnate nella realizzazione di modelli di intelligenza artificiale generativa non rispettano le regole, bypassando i protocolli per proteggere i contenuti di siti e portali. A lanciare l’allarme è Reuters, che riporta come numerose realtà al lavoro sull’addestramento delle intelligenze artificiali non si fermano nemmeno davanti alle istruzioni contenute nei file robots.txt, che dovrebbero invece fare da barriera per arginare i saccheggi non consentiti ovvero il cosiddetto scraping.

Il file robots.txt è un elemento molto importante di un sito internet, ormai da trent’anni (ha debuttato nel 1994) perché contiene una serie di informazioni cruciali che vengono lette e rispettate dai sistemi automatizzati (spider) dei motori di ricerca, per essere guidati ai contenuti e alle risorse accessibili nelle varie pagine. Lo stesso dovrebbe avvenire anche con i sistemi utilizzati per addestrare le intelligenze artificiali, ovvero i crawler, ma spesso e volentieri così non capita. Un primo campanello d’allarme era stato lanciato da Wired Usa, con la scoperta di come i sistemi della società Perplexity stiano facendo man bassa dei contenuti del portale, nonostante i file robots.txt esplicitassero la non autorizzazione all’accesso per scopi di addestramento delle AI. In un’intervista a Fast Company, l’amministratore delegato di Perplexity, Aravind Srinvas, ha affermato che uno dei crawler utilizzati era di terze parti e non quello proprietario, ma alla domanda se avrebbero stoppato lo scraping di Wired Usa, ha risposto solo “È complicato”.

Nelle scorse ore, Reuters ha rilanciato, confermando che il caso non è isolato, citando la startup TollBit specializzata nell’assistenza alle società AI proprio per l’addestramento lecito dei modelli. Non vengono fatti nomi, ma Business Insider punta il dito contro due colossi come OpenAI e Antrophic, che avrebbero ignorato i protocolli di esclusione contenuti nei file robots.txt per addestrare i loro ChatGPT e Claude. La questione sta diventando sempre più cruciale per regolamentare l’addestramento delle intelligenze artificiali, che spesso avviene su contenuti (testi o immagini) protette dal copyright, che viene di fatto aggirato per poi mettere a punto uno strumento che verrà utilizzato a scopo di lucro.



Fonte