논문: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 저자: Patrick Lewis, Ethan Perez, Aleksandra Piktus, et al. 링크: https://arxiv.org/abs/2005.11401
논문 핵심
RAG(Retrieval-Augmented Generation)은 LLM의 환각(hallucination) 문제를 해결하기 위해, 외부 지식 검색 + 생성을 결합하는 패러다임입니다.
RAG 파이프라인 구조
"We combine pre-trained parametric and non-parametric memory for language generation."
- Query 처리: 사용자 질문을 임베딩으로 변환
- 검색(Retrieval): 벡터 DB에서 관련 문서 검색
- 증강(Augmentation): 검색된 문서를 프롬프트에 추가
- 생성(Generation): LLM이 증강된 컨텍스트로 답변 생성
2025년 최적화 트렌드
| 전략 | 효과 |
|---|---|
| Chunk 전략 최적화 | 문서 분할 크기/방법에 따라 검색 품질 크게 변동 |
| Hybrid Search | 키워드(BM25) + 벡터 검색 결합으로 재현율 향상 |
| Reranking | 1차 검색 후 Cross-encoder로 재순위화 |
| Query Expansion | 원래 질문을 다양하게 변형하여 검색 범위 확대 |
| Self-RAG | LLM이 검색 필요성을 스스로 판단 |
Chunk 전략 비교
- 고정 크기: 간단하지만 맥락 단절 위험
- 시맨틱 분할: 의미 단위 분할, 품질↑ 비용↑
- 재귀적 분할: 문서 구조를 활용한 계층적 분할
실무 시사점
RAG는 기업 AI 도입의 가장 실용적인 첫걸음입니다. 자체 데이터를 활용하면서도 LLM의 생성 능력을 극대화할 수 있습니다. Chunk 전략과 Reranking만 잘 설정해도 체감 품질이 크게 향상됩니다.