Google представляет TurboQuant: новый алгоритм сжатия, который сокращает использование памяти в кэше LLM в 6 раз и повышает скорость до 8 раз без потери точности
Масштабирование больших языковых моделей (LLM) всё больше ограничивается накладными расходами на передачу данных между памятью с высокой пропускной способностью (HBM) и SRAM. Размер кэша Key-Value (KV) зависит от размеров модели и длины контекста, что создаёт значительное узкое место для логического вывода в длинном контексте. Команда исследователей Google предложила TurboQuant — алгоритм квантования, не зависящий от … Читать далее