LegoGPT è l’inevitabile nome di un curioso modello di linguaggio sviluppato da un team di ricercatori della Carnegie Mellon University negli Usa e ispirato al mondo dei celebri mattoncini che arrivano dalla Danimarca. Lo scopo di questa intelligenza artificiale è quello di comprendere e interpretare correttamente un prompt (descrizione testuale) per fornire indicazioni precise per costruire oggetti di vario tipo in modo organizzato e preciso. Il risultato sarà una creazione non soltanto realistica e il più vicino possibile a quella descritta, ma anche una struttura stabile e solida.
Dal testo alle istruzioni
Alla base di LegoGPT c’è il grande modello di linguaggio LLaMA-3.2-1B-Instruct, che è stato per l’occasione riaddestrato da parte del team universitario così da poter adattarsi allo scopo specifico al quale è destinato. Il funzionamento è presto detto: invece che per generare foto o video, questa AI può creare istruzioni per costruzioni in mattoncini Lego, comprendendo la descrizione fornita dall’utente. Per esempio, si potrà chiedere di ottenere “Un divano stile vintage con tessuto rosso e verde che riproduce un motivo floreale” oppure “una chitarra elettrica con ampia tracolla” e il sistema creerà una serie di passaggi per utilizzare – di volta in volta – uno specifico blocchetto di colore e forma unico, da piazzare in una determinata posizione, fino al completamento del lavoro. Proprio come nelle istruzioni che si trovano all’interno di ogni scatola.
Il team della Carnegie Mellon University ha creato un database di oltre 47.000 strutture Lego con oltre 28.000 oggetti tridimensionali per addestrare il modello e renderlo subito pronto a pescare forme e strutture per ogni scopo.
Un progetto open source
Il risultato tiene conto anche della stabilità delle creazioni, che dovranno ben bilanciare pesi e ingombri per evitare di crollare al suolo una volta erette. Inoltre, l’AI può anche comprendere le indicazioni testuali sulla texture da riprodurre coi mattoncini, suggerendo dettagli e particolari il più coerenti possibili. Al momento, il modello può operare su una griglia di piccole dimensioni, ma può già fornire istruzioni in grado di essere comprese da bracci robotici, oltre che da umani. Si può accedere a dataset e codice di LegoGPT su Github, dato che tutto è stato diffuso in open source.