Esplora il mondo della tecnologia e del lifestyle con Consigli Tech e Lifestyle di Flavio Perrone

Cloudflare, lo scraping per l’AI sarà bloccato di default

da | Lug 1, 2025 | Tecnologia


L’anno scorso, l’azienda di infrastrutture internet Cloudflare ha lanciato una serie di strumenti che consentono ai suoi clienti di bloccare lo scraping per l’AI, ovvero l’estrazione automatica di dati destinati all’addestramento dell’intelligenza artificiale dai siti web. Oggi l’azienda ha fatto un ulteriore passo avanti nella lotta contro la pratica, annunciando che inizierà a bloccare di default i software che raccolgono i dati dai portali – i cosiddetti crawler – per i suoi clienti e annunciando un programma ribattezzato Pay per crawl, che consente agli utenti di addebitare una tariffa alle aziende di AI per la raccolta delle informazioni.

Il problema dello scraping per l’AI

I web crawler setacciano internet alla ricerca di informazioni da decenni. Senza di loro, non potremmo contare su strumenti online essenziali, da Google Search all’inestimabile lavoro di conservazione digitale dell’Internet Archive. Ma il boom dell’intelligenza artificiale è coinciso anche con un’esplosione di bot specificamente progettati per l’intelligenza artificiale, che scandagliano le pagine web con una frequenza paragonabile a un attacco informatico di tipo Ddos, mettendo a dura prova i server e mandando offline i portali. E anche quando sono in grado di gestire l’aumento dell’attività, molti siti non vogliono che i crawler effettuino lo scraping dei loro contenuti, in particolar modo se si tratta di testate giornalistiche che chiedono alle aziende di AI di pagare per utilizzare il loro lavoro. “Stiamo cercando affannosamente di proteggerci“, afferma Danielle Coffey, presidente e amministratrice delegata del gruppo commerciale News media alliance, che rappresenta migliaia di testate nordamericane.

A oggi, oltre un milione di siti hanno attivato gli strumenti per bloccare l’AI lanciati in precedenza da Cloudflare, spiega a Wired US Will Allen, responsabile dell’azienda per il controllo dell’intelligenza artificiale, la privacy e i prodotti per i media. Ora altri milioni di portali avranno la possibilità di farlo per impostazione predefinita. Cloudflare afferma di essere in grado di identificare anche gli scrapers “ombra” che non vengono dichiarati dalle aziende di AI, e ha dichiarato di utilizzare un sistema proprietario che combina analisi comportamentale, fingerprinting e machine learning per classificare i bot e separare quelli per l’AI da quelli “buoni”.

Sulla carta i modi per impedire lo scraping esistono già, ma vengono generalmente aggirati. Uno standard web molto utilizzato è per esempio Robots exclusion protocol, che spesso viene implementato attraverso un file di tipo robots.txt e aiuta gli editori a bloccare i bot caso per caso. Il rispetto del protocollo però non è obbligatorio, ed è comprovato che alcune aziende di AI tentano di eludere gli sforzi per fermare i loro scraper. Secondo un rapporto di Tollbit, una piattaforma specializzata nelle licenze per l’uso dei contenuti Tollbit che permette agli editori di negoziare l’accesso dei bot ai propri siti, il fenomeno dello scraping è in continuo aumento. Solo nel marzo 2025, Tollbit ha rilevato oltre 26 milioni di casi in cui robots.txt è stato ignorato.

Ridare potere agli editori

In questo contesto, la novità introdotta da Cloudflare potrebbe rivelarsi un ostacolo significativo per gli scraper clandestini, garantendo agli editori di avere maggiore voce in capitolo in sede di negoziazione, sia attraverso il programma Pay per crawl che in altro modo. “Potrebbe cambiare radicalmente la dinamica di potere. Fino a oggi, le aziende di AI non hanno avuto bisogno di pagare licenze per i contenuti, perché sapevano di poterli prendere senza conseguenze – spiega Nicholas Thompson, amministratore delegato del sito di news Atlantic (ed ex direttore di Wired US) –. Ora dovranno negoziare e questo diventerà un vantaggio competitivo per le aziende AI che riusciranno a concludere accordi migliori con un numero sempre maggiore di editori“.



Fonte

Written By

Scritto da Flavio Perrone, consulente informatico e appassionato di tecnologia e lifestyle. Con una carriera che abbraccia più di tre decenni, Flavio offre una prospettiva unica e informata su come la tecnologia può migliorare la nostra vita quotidiana.

Related Posts