#KV캐시

KV캐시 태그가 붙은 모든 글

TurboQuant: 3비트 KV 캐시 양자화로 LLM 추론 메모리를 6배 줄이다

Google Research의 TurboQuant이 training-free 벡터 양자화로 KV 캐시를 3비트까지 압축하면서도 정확도를 유지하는 방법을 분석합니다.

· 9분