Google Research presenta TurboQuant, algoritmo training-free che comprime il KV cache degli LLM a 3 bit senza perdere accuratezza. Memoria ridotta di almeno cinque volte e calcolo degli attention logits fino a 8x più veloce su NVIDIA H100

Articolo Originale