In un disordinato ufficio di Mountain View, in California, un robot su ruote alto e snello è stato utilizzato come cicerone e assistente, grazie a un aggiornamento del modello linguistico di grandi dimensioni di Google. L’annuncio è arrivato ieri da DeepMind, la divisione di Big G dedicata all’intelligenza artificiale.
Il nuovo robot di Google
Il robot utilizza l’ultima versione di Gemini, l’AI di Google, per elaborare i comandi e orientarsi nell’ambiente circostante. Quando per esempio un essere un umano gli chiede di trovare un posto dove scrivere, la macchina si dirige verso una lavagna piazzata in un’altra zona nell’edificio.
La capacità di Gemini di gestire non solo testi ma anche video tour di un ufficio consente al robot di Google di capire dove si trova e spostarsi in modo corretto quando gli vengono impartiti comandi che richiedono un ragionamento. Il dispositivo combina Gemini con un algoritmo in grado di far compiere al robot azioni specifiche, come per esempio girare, in risposta ai comandi e a quello che vede davanti a sé.
Quando Gemini è stato presentato a dicembre, l’amministratore delegato di DeepMind Demis Hassabis ha raccontato a Wired che le capacità multimodali dell’AI di Google avrebbero probabilmente sbloccato nuove abilità robotiche.
In un nuovo documento che illustra il progetto, i ricercatori di DeepMind hanno dichiarato che il robot ha dimostrato un’affidabilità fino al 90% nella navigazione, anche in risposta a comandi difficili come “Dove ho lasciato il mio sottobicchiere?” Il sistema di DeepMind “ha migliorato significativamente la naturalezza dell’interazione uomo-robot e ha aumentato notevolmente l’usabilità del robot“, scrive il team.
Courtesy of Google DeepMind
Photograph: Muinat Abdul; Google DeepMind
Il futuro AI della robotica
La dimostrazione illustra chiaramente che i modelli linguistici di grandi dimensioni (Llm) hanno le potenzialità per raggiungere il mondo fisico e svolgere compiti utili. Gemini e gli altri chatbot sono per lo più confinati ai browser o alle applicazioni, anche se sono sempre più in grado di gestire input visivi e uditivi, come hanno dimostrato di recente sia Google che OpenAI. A maggio, Hassabis aveva presentato una versione aggiornata di Gemini che può capire come è organizzato un ufficio vista attraverso la fotocamera di uno smartphone.