FlashAttention: Attention 연산의 속도 혁명

논문: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 저자: Dao et al. (Stanford) 링크: https://arxiv.org/abs/2205.14135

논문 핵심

FlashAttention은 Self-Attention의 계산 결과는 정확히 동일하면서, GPU 메모리 계층(HBM vs SRAM)을 최적화하여 2-4배 빠르고 메모리 효율적인 구현을 달성합니다.

"We propose FlashAttention, an IO-aware exact attention algorithm."

기존 방식의 문제: Attention 행렬(N×N)을 HBM에 쓰고 읽는 IO가 병목 FlashAttention: 타일링(Tiling)으로 SRAM에서만 연산, HBM 접근 최소화

현재 사실상 모든 주요 LLM 프레임워크에서 표준:

FlashAttention은 "알고리즘 개선이 하드웨어 업그레이드보다 효과적일 수 있다"는 것을 보여줍니다. LLM 추론 서버를 운영하는 기업에서는 FlashAttention 적용만으로도 비용을 크게 절감할 수 있습니다.