Censurano Gianni Rodari e Ennio Flaiano per i loro testi immorali e non sanno ancora bene quando la āaā vuole la āhā. Viene quasi da sorridere, osservando i Llm (Large language model) alle prese con alcune prove di italiano del test Invalsi. CāĆØ chi addirittura sogghigna, vedendoli impacciati, dopo mesi in cui fanno i saputelli, inventando risposte piuttosto che ammettere di non averne. Divertimento iniziale a parte, però, il reale valore dellāadattamento di questa āprova per studentiā ai modelli di AI generativa fatto dal centro di ricerca Crisp dellāUniversitĆ degli Studi di Milano Bicocca consiste nellāaver fornito un benchmark ānazionaleā. Dāora in poi potremo capire quanto bene funzionino direttamente sull’italiano. Al di lĆ della lingua in cui sono stati allenati.
Non si studia solo inglese
I modelli attualmente disponibili, pur avendo prestazioni elevate in inglese, sono carenti nelle altre lingue. Che sia per la scarsitĆ e la bassa qualitĆ dei dati disponibili o per le dimensioni ridotte della community di contributori, questa situazione non garantisce uguaglianza di opportunitĆ e obbliga a una visione anglo-centrica.
Continuando a valutarli solo con test nati per l’americano e poi tradotti in automatico (e male) in italiano, non se ne viene a capo. Per questo Fabio Mercorio, Mario Mezzanzanica, Daniele PotertƬ e Antonio Serino e Andrea Seveso hanno pensato di creare in test per lingue diverse dall’inglese. Partendo dalla propria, hanno scelto quello Invalsi, giĆ pronto (o quasi), noto a tutti e funzionale a effettuare paragoni diretti con le performance umane.
I Llm non sanno lāortografia
āAbbiamo adattato più di 600 domande tipicamente linguistiche, abbiamo creato una āclasse multilingueā di Llm allenati sia in italiano che in inglese e, come in ogni classe, abbiamo trovato āstudentiā più o meno brillantiā spiega Mercorio. Claude di Anthropic si rivela āil secchioneā, il piccolo Google Gemini sembra uno di quegli alunni silenziosamente seduti allāultimo banco, ma sempre preparati, mentre il modello Minerva sviluppato dalla UniversitĆ Sapienza di Roma ha ancora molta strada da fare e si sta applicano.
Tra i banchi si ĆØ formato anche il gruppo dei ābacchettoni”, quello dei modelli di OpenAI, che ritiene violenti e immorali e i racconti Il padrone della Luna di Gianni Rodari e Le ombre bianche di Ennio Flaviano, rifiutandosi di leggerli.


