논문: RoFormer: Enhanced Transformer with Rotary Position Embedding 저자: Su et al. 링크: https://arxiv.org/abs/2104.09864
논문 핵심
RoPE(Rotary Position Embedding)는 토큰의 절대 위치를 회전 행렬로 인코딩하여, 상대 위치 정보를 자연스럽게 내적 연산에 반영하는 기법입니다.
핵심 아이디어
"We encode position information by rotating the query and key vectors."
기존 위치 인코딩의 문제:
- 절대 위치: 학습 시 본 길이 이상으로 외삽 불가
- 상대 위치: 추가 파라미터와 연산 필요
RoPE의 해결: 쿼리와 키 벡터를 위치에 따라 회전시킴
- 내적 시 자동으로 상대 위치 정보가 반영
- 추가 파라미터 불필요
- 길이 외삽이 자연스러움
채택 현황
현재 주요 LLM에서 거의 표준으로 사용:
- LLaMA 시리즈
- Mistral / Mixtral
- Qwen
- PaLM 2
실무 시사점
RoPE를 이해하면 LLM의 컨텍스트 길이 확장(NTK-aware scaling, YaRN 등) 기법의 원리를 파악할 수 있습니다. 긴 문서를 처리해야 하는 애플리케이션에서 핵심적인 기술입니다.