Un laconico avviso su LinkedIn che alla maggior parte degli utenti sarà passato inosservato, ma che testimonia l’ennesimo tentativo delle piattaforme social di “mettere a valore” i contenuti creati dagli utenti per addestrare i loro modelli di AI.
Il caso più recente è quello di Microsoft (proprietaria di LinkedIn) che ha deciso di usare i dati degli utenti del social network per addestrare il suo Large Language Model. Impedirlo è possibile, ma come accade (troppo) spesso, bisogna farlo entro un termine preciso (la data da cerchiare in rosso è il 3 novembre) e il consenso all’utilizzo viene impostato come opzione predefinita.
“Il caso di LinkedIn è solo l’ultimo di una serie che ha coinvolto anche Meta e X. Le piattaforme social, in pratica, stanno cercando di Il caso di LinkedIn è solo l’ultimo di una serie che ha coinvolto anche Meta e X. Le piattaforme social, in pratica, stanno cercando di sfruttare i contenuti raccolti in 20 anni di attività per estrarne valore usandoli per addestrare i loro algoritmi” spiega Jacopo Franchi, social media manager di Cariplo Factory. “Il fenomeno è in crescita e rappresenta un problema rilevante a livello di privacy”.
Il “nuovo petrolio” che ingolosisce le big tech
Sono passati quasi 20 anni da quando il matematico Clive Humby ha coniato la celeberrima frase “data is the new oil”. Solo con l’avvento dell’intelligenza artificiale generativa, però, la sua profezia può dirsi realmente confermata.
La fame di dati che caratterizza il settore della Gen AI sta portando a una corsa forsennata al rastrellamento di contenuti online. E se il world wide web è già stato ampiamente saccheggiato da tutte le aziende che sviluppano LLM, è ora il turno dei social network.
Qui, però, emergono nuove criticità. Per utilizzare i dati degli iscritti per sviluppare sistemi di AI, infatti, è necessario modificare i termini di utilizzo delle piattaforme e chiedere un espresso consenso agli utenti. Tutte le piattaforme, però, sembrano aver scelto la stessa scorciatoia.
“La base giuridica su cui fanno leva le piattaforme è quella del cosiddetto legittimo interesse che consente di non richiedere il consenso esplicito degli utenti, ferma la possibilità di opporsi” spiega Giovanna Fragalà, Professionista esperta in Data Protection e AI nonché Legal Expert in new technologies presso l’European Data Protection Board. “Le piattaforme social, in pratica, sostengono che hanno il diritto di usare i dati che hanno raccolto in dieci o vent’anni di attività per migliorare i loro servizi”.
Peccato che quel “miglioramento dei servizi” non riguardi in alcun modo le persone che contribuiscono, indirettamente, all’evoluzione degli LLM. Sostenere che un qualsiasi iscritto a Facebook o a Instagram possa godere di un vantaggio per il fatto che i suoi contenuti permettano a Meta di sviluppare strumenti di AI più efficaci, infatti, è un’evidente forzatura.
La giustificazione di facciata dei “dati pubblici”
Per non incappare in accuse di violazione della privacy, le piattaforme solitamente limitano l’uso dei dati ai post pubblici. “L’idea è che, siccome quei contenuti sono accessibili a chiunque, sia legittimo utilizzarli per addestrare un LLM” spiega Fragalà. “In realtà chi ha pubblicato contenuti 5 o 10 anni fa non aveva la minima idea che qualcuno avrebbe potuto usarli per questa finalità, sicuramente nuova e ulteriore e che come tale va valutata in ottica di valida base giuridica, specie se si tratta del legittimo interesse che richiede un assessment tripartito (LIA)”.



