RoFormer: Rotary Position Embedding(RoPE)

논문: RoFormer: Enhanced Transformer with Rotary Position Embedding 저자: Su et al. 링크: https://arxiv.org/abs/2104.09864

논문 핵심

RoPE(Rotary Position Embedding)는 토큰의 절대 위치를 회전 행렬로 인코딩하여, 상대 위치 정보를 자연스럽게 내적 연산에 반영하는 기법입니다.

"We encode position information by rotating the query and key vectors."

기존 위치 인코딩의 문제:

RoPE의 해결: 쿼리와 키 벡터를 위치에 따라 회전시킴

현재 주요 LLM에서 거의 표준으로 사용:

RoPE를 이해하면 LLM의 컨텍스트 길이 확장(NTK-aware scaling, YaRN 등) 기법의 원리를 파악할 수 있습니다. 긴 문서를 처리해야 하는 애플리케이션에서 핵심적인 기술입니다.