La società cinese DeepSeek presenta il modello linguistico di grande successo, DeepSeek V3-0324
La società cinese DeepSeek ha recentemente presentato il suo ultimo modello linguistico di grandi dimensioni, DeepSeek V3-0324. Questo nuovo strumento di interazione tra l’uomo e la macchina è stato reso disponibile sulla piattaforma Hugging Face, grazie alla licenza Mit, che consente l’utilizzo commerciale gratuito. La buona notizia è che DeepSeek V3-0324 può essere eseguito su computer commerciali, come il Mac Studio di Apple equipaggiato con il chip M3 Ultra.
La velocità di elaborazione di DeepSeek V3-0324 ha superato i 20 token al secondo, superando le capacità di esecuzione di alcuni modelli concorrenti, tra cui Claude Sonnet 3.5 di Anthropic. Il dato più importante è che, per l’addestramento, sono stati necessari solo 5 milioni di dollari, un’ipote si rispetto alle stime dei colossi dell’IA, con costi fino a 100 milioni di dollari. Nei test, DeepSeek V3 è risultato tre volte più veloce della versione precedente, posizionandosi tra i migliori dieci modelli nella piattaforma di analisi Chatbot Arena, gestita dall’Università della California.
DeepSeek ha sottoposto l’IA a rigorosi test da parte di esperti, anche in ambito di sicurezza, un elemento che ha sollevato vari dubbi in passato, con la paura che i dati prodotti dal chatbot potessero essere usati dal governo cinese. Dal punto di vista tecnico, il modello si basa su un’architettura Mixture of Experts (MoE), che consente l’utilizzo selettivo di circa 37 miliardi dei 685 miliardi di parametri per ciascuna attività, promuovendo l’efficienza attraverso la riduzione dei requisiti computazionali, pur mantenendo prestazioni elevate.
Da notare che un mese fa, l’app di DeepSeek è scomparsa dagli store italiani di Apple e Google, ma è ancora accessibile via web nel nostro Paese.
Riproduzione riservata © Copyright