Luca De Meo, decisamente a sorpresa, ha presentato le dimissioni da CEO del Gruppo Renault, e secondo la stampa francese lascerà anche il settore
Articolo Originale
Google risolve il problema della memoria negli LLM: TurboQuant fa girare gli stessi modelli con cinque volte meno RAM
Google Research presenta TurboQuant, algoritmo training-free che comprime il KV cache degli LLM a 3 bit senza perdere accuratezza. Memoria ridotta di almeno cinque volte e calcolo degli attention logits fino a 8x più veloce su NVIDIA H100 Articolo Originale


