Retrieval-Augmented Generation(RAG) 최적화 전략 총정리

논문: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 저자: Patrick Lewis, Ethan Perez, Aleksandra Piktus, et al. 링크: https://arxiv.org/abs/2005.11401

논문 핵심

RAG(Retrieval-Augmented Generation)은 LLM의 환각(hallucination) 문제를 해결하기 위해, 외부 지식 검색 + 생성을 결합하는 패러다임입니다.

RAG 파이프라인 구조

"We combine pre-trained parametric and non-parametric memory for language generation."

Query 처리: 사용자 질문을 임베딩으로 변환
검색(Retrieval): 벡터 DB에서 관련 문서 검색
증강(Augmentation): 검색된 문서를 프롬프트에 추가
생성(Generation): LLM이 증강된 컨텍스트로 답변 생성

2025년 최적화 트렌드

전략	효과
Chunk 전략 최적화	문서 분할 크기/방법에 따라 검색 품질 크게 변동
Hybrid Search	키워드(BM25) + 벡터 검색 결합으로 재현율 향상
Reranking	1차 검색 후 Cross-encoder로 재순위화
Query Expansion	원래 질문을 다양하게 변형하여 검색 범위 확대
Self-RAG	LLM이 검색 필요성을 스스로 판단

Chunk 전략 비교

고정 크기: 간단하지만 맥락 단절 위험
시맨틱 분할: 의미 단위 분할, 품질↑ 비용↑
재귀적 분할: 문서 구조를 활용한 계층적 분할

실무 시사점

RAG는 기업 AI 도입의 가장 실용적인 첫걸음입니다. 자체 데이터를 활용하면서도 LLM의 생성 능력을 극대화할 수 있습니다. Chunk 전략과 Reranking만 잘 설정해도 체감 품질이 크게 향상됩니다.