논문: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 저자: Dao et al. (Stanford) 링크: https://arxiv.org/abs/2205.14135
논문 핵심
FlashAttention은 Self-Attention의 계산 결과는 정확히 동일하면서, GPU 메모리 계층(HBM vs SRAM)을 최적화하여 2-4배 빠르고 메모리 효율적인 구현을 달성합니다.
핵심 아이디어 — IO-Awareness
"We propose FlashAttention, an IO-aware exact attention algorithm."
기존 방식의 문제: Attention 행렬(N×N)을 HBM에 쓰고 읽는 IO가 병목 FlashAttention: 타일링(Tiling)으로 SRAM에서만 연산, HBM 접근 최소화
성능 향상
- BERT-large 학습: 15% 속도 향상
- GPT-2 학습: 3배 속도 향상
- 시퀀스 길이 4K → 16K로 확장 가능 (같은 메모리)
채택 현황
현재 사실상 모든 주요 LLM 프레임워크에서 표준:
- PyTorch 2.0 내장
- Hugging Face Transformers 기본 지원
- vLLM, TensorRT-LLM 등에서 필수 사용
실무 시사점
FlashAttention은 "알고리즘 개선이 하드웨어 업그레이드보다 효과적일 수 있다"는 것을 보여줍니다. LLM 추론 서버를 운영하는 기업에서는 FlashAttention 적용만으로도 비용을 크게 절감할 수 있습니다.