Esplora il mondo della tecnologia e del lifestyle con Consigli Tech e Lifestyle di Flavio Perrone

Il training dell’AI sta cambiando internet

da | Apr 20, 2025 | Tecnologia


Un comunicato diramato da Wikimedia Foundation, la fondazione che gestisce Wikipedia, lancia l’allarme su uno dei costi nascosti dell’intelligenza artificiale generativa. I sistemi di training dei modelli linguistici di grandi dimensioni hanno continuo bisogno di essere alimentati da una enorme quantità di dati, che oltre a dataset pubblici e privati, vengono anche estratti direttamente dal web tramite crawler. I crawler, o spider bot, sono software normalmente utilizzati anche dai motori di ricerca, che li usano per indicizzare i contenuti. Queste azioni consumano risorse, e quindi hanno un costo per i siti che visitano in modo automatizzato, come per esempio Wikimedia Commons, l’archivio di 144 milioni di immagini, video e file che possono essere copiati, scaricati, distribuiti e modificati secondo la licenza Creative Commons della fondazione.

I progetti di Wikimedia – che vanno oltre la sola Wikipedia e includono anche Wikibooks e Wiktionary, solo per citarne alcuni – si basano infatti su due elementi principali: contenuti gratuiti ed accessibili a tutti, e il lavoro volontario della community che li mette assieme. Ed è proprio questo a renderla appetibile ai nuovi crawler che, sommandosi a quelli esistenti e al traffico umano, stanno consumando le risorse di progetti come quello dell’enciclopedia più popolare al mondo, i cui contenuti sono gratuiti per l’utente, ma hanno un costo per la fondazione.

Il boom di traffico

Da quando gli LLM e i chatbot legati ai loro modelli sono diventati più diffusi, il volume di richieste è aumentato esponenzialmente, soprattutto a causa di bot di scraping. Dai dati diffusi nel comunicato stampa, emerge una crescita del traffico in download del 50% da gennaio 2024. Wikimedia lamenta che il boom di richieste non arrivi da utenti, ma da software che sfruttano il suo catalogo per alimentare modelli di AI generativa, un’evenienza che la fondazione non era preparata ad affrontare, e che prospetta un sostanziale aumento dei costi di gestione. Il 65% del traffico più costoso proviene oggi dai bot, per il semplice motivo che la richiesta di contenuti di un umano è molto contenuta rispetto a quella di un software.

Per fare un esempio, la navigazione di un utente potrebbe portarlo a cercare la parola “crawler”, poi da lì a cliccare sulla parola “scraping”, e così via. A livello di dati, parliamo di una velocità e una quantità limitate per un largo numero di user. Mentre quando si tratta di bot, le quantità sono enormi e le richieste avvengono in grandi blocchi. Solo il 35% delle pagine viste sono visitate dai bot, ma generano due terzi del traffico più costoso. Questa situazione diventa problematica quando la piattaforma si trova ad affrontare picchi di traffico in cui le ricerche umane sono elevate, ovvero quando fatti di cronaca e attualità portano milioni di utenti nel mondo a cercare le stesse voci nell’enciclopedia. A quel punto la navigazione rallenta o non avviene come previsto.

I dati come commodity

La reperibilità dei dati è uno dei principali asset dell’attuale approccio delle grandi aziende del tech in tema di modelli linguistici di grandi dimensioni. Basati su un numero elevatissimo di parametri, queste tecnologie necessitano di sterminati dataset di alta qualità, ovvero creati e rivisti da esseri umani. Come noto i contenuti sintetici possono contenere inaccuratezze ed errori, chiamati comunemente allucinazioni. È essenziale quindi che i dati siano il più possibile precisi, cosa più probabile quando c’è un processo di revisione e redazione. Pur con tutti i suoi limiti e inevitabili distinguo, questa procedura tipicamente umana, assicura una certa qualità dell’output, ed è basato sull’idea della libera circolazione della conoscenza. Per evitare il problema dell’autofagia dell’AI generativa, ovvero chabot che restituiscono risultati di livello progressivamente più basso dovuto alla quantità di contenuti sintetici nei dataset dei modelli, questo tipo di dato è una condizione necessaria per un output di alto livello. I contenuti umani di qualità sono una commodity essenziale non solo per la democrazia, ma anche per l’industria privata dell’intelligenza artificiale.



Fonte

Written By

Scritto da Flavio Perrone, consulente informatico e appassionato di tecnologia e lifestyle. Con una carriera che abbraccia più di tre decenni, Flavio offre una prospettiva unica e informata su come la tecnologia può migliorare la nostra vita quotidiana.

Related Posts

Commodore 64: quali erano i 10 giochi più belli

Commodore 64: quali erano i 10 giochi più belli

Questo editoriale ripercorre la magia del Commodore 64, una macchina che ha segnato l'ingresso di molti nel mondo dei videogiochi. Attraverso i ricordi personali legati a Cabal, si esplorano dieci (undici) titoli che hanno definito un'epoca, analizzandone le...

leggi tutto
Impact-Site-Verification: c90fc852-aae7-4b2e-b737-f9de00223cb0