Quanto conta la scelta della lingua da utilizzare per addestrare un modello di intelligenza artificiale? E come si addestrano gli LLM, i grandi modelli linguistici, perchรฉ siano in grado di tradurre da una lingua all’altra, rispettando fedelmente il significato di ciรฒ che leggono o ascoltano? Sono questi i temi di cui hanno discusso ai microfoni di Grande Giove Enrico Gianotti, Managing director di Cedat85, e Roberto Navigli, professore di Natural language processing a La Sapienza Universitร di Roma e co-founder e direttore scientifico di Babelscape.
Intanto, perchรฉ รจ importante la lingua scelta per addestrare un modello di AI? โNei nostri studi abbiamo riscontrato il fatto che la cultura italiana รจ compresa meglio da un modello addestrato in italianoโ, ha spiegato Navigli, โmentre i modelli anglofoni, anche se sono adattati all’italiano, non riescono a esprimere e a comprendere tutti i riferimenti culturali, le norme, i contesti, le espressioni anche dialettali che nella nostra lingua vengono utilizzati per esprimere la nostra culturaโ.
Questo nonostante il fatto che gli LLM siano anche dei formidabili traduttori. โQuesti modelli sono in grado di tradurre meglio dei sistemi nativi addestrati unicamente alla traduzioneโ, ha sottolineato Gianotti. Un’abilitร che non deriva esclusivamente dalla quantitร di dati con i quali รจ stato addestrato, โรจ come se un essere umano avesse a disposizione migliaia di anni per leggere milioni di libriโ. Ma dal fatto che sono stati addestrati con libri in lingue diverse che parlano del medesimo argomento e questo facilita loro il passaggio da una lingua all’altra.
Dobbiamo quindi aspettarci che un giorno siano in grado di tradurre anche un romanzo? โMi viene sempre in mentre l’esempio di Cesare Pavese, un grande scrittore che nelle traduzioni metteva sempre del suo. Quindi, quando leggiamo Moby Dick noi leggiamo anche Paveseโ, la risposta di Navigli, โquesto mi porta a dire che non potremo mai sostituire realmente il traduttore umano, soprattutto in quelle attivitร come la traduzione letteraria in cui รจ importante l’interpretazioneโ.
Grande Giove รจ una serie videopodcast su tecnologia, scienza e innovazione, powered by Wired. Ai microfoni Daniele Ciciarello e Matteo Imperiale. Alla produzione Ludovico Casalone e Federico Meneghini. Coordinamento editoriale di Tommaso Perrone e Riccardo Saporiti. In redazione: Marta Abbร , Samantha Colombo e Nicholas David Altea. Supporto YouTube: Martina Bellet. In segreteria: Elena Lotto.


