※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※

오늘은 RAG(Retrieval-Augmented Generation)의 학습 데이터 설계 전략에 대해 가볍게 살펴봤습니다.
특히 RAFT 논문과 Cohere, GPT-4, Orion 등의 RAG 특화 모델 사례를 통해 실제로 어떤 방식이 효과적인지
그리고 학습 데이터 구성 시 유의할 점은 무엇인지를 대략적으로 정리해볼 수 있었어요. 😋
🧠 RAG 학습의 핵심: 출처 명시와 Negative Sample
RAG 학습 성능의 핵심은 다음 두 가지로 요약될 것 같아요.
- 출처 명시
- 답변 생성 시 반드시 사용된 문서의 출처(예: 문서 번호, quote 등)를 명시하게 하자!
- 이는 Hallucination을 줄이고, 평가 가능성을 높일 수 있는 방법
- Negative Sample 구성
- 답변과 무관한 문서를 함께 제공해, 모델이 ‘관련 없는 문서’를 구분하도록 하자!
- RAFT 논문에서도 이 전략으로 LLAMA2 모델이 GPT-3.5 RAG보다도 뛰어난 성능을 검증함
🧪 RAG 학습 데이터 구성 전략 요약
✅ 방법 1: 출처를 명시하는 방식 (Orion 방식)
- 답변 끝에 실제로 참조한 문서 번호를 명시적으로 남김
- ex) “이 기술은 미국 국방부가 2023년에 발표한 정책에 기초합니다. (출처: ---)”
- 장점:
- 모델 평가가 명확해짐
- 출처를 인용하는 습관을 모델에게 학습시킴
- 테스트 데이터에서도 정답 문서를 인용했는지 자동 평가 가능
✅ 방법 2: 텍스트 내 인용 태그 삽입 (Cohere 스타일)
- <co:문서 번호></co:문서 번호> 형태로 원문 인용을 명시
- 장점:
- Chain-of-Thought 형태로 프롬프트 엔지니어링 가능
- 할루시네이션 억제 효과
- 텍스트 흐름 속에서 자연스럽게 인용을 강제할 수 있음
🧱 반드시 포함해야 할 데이터 유형들
학습 데이터는 다음과 같은 질문 유형과 상황을 모두 포함해하는 것이 좋다고 합니다.
이는 실제 사용자 질문의 다양성과 현실적인 검색 상황을 반영하기 위함이죠.
분류예시
| 구체적 질문 | “11월 27일에 열린 세미나 장소는 어디인가요?” |
| 넓은 질문 | “세미나의 주제는 무엇인가요?” |
| 명사형 질문 | “세미나가 열린 장소” |
| 검색 결과 없음 | 검색 결과에 답이 존재하지 않는 경우 |
| 검색 결과 다수 | 여러 문서를 인용해야 하는 답변 |
| 영어 대응 | 영어 질문 및 영어 문서 혼합 |
| 단일 인용 | 하나의 문서만 인용한 답변 |
| 복수 인용 | 여러 문서에서 정보를 종합한 답변 |
이러한 다양한 상황을 커버함으로써, 서비스 단계에서의 RAG 시스템이 예상치 못한 질문에 취약해지는 것을 방지할 수 있습니다 😗
🤔 배운 점과 고민 포인트
✨ 배운 점
- RAG 학습에서는 성능을 위해 ‘정답을 포함하지 않는 문서’도 의도적으로 제공할 수 있다는 점
- 문서 인용 방식은 단순한 정보 제공이 아니라, 모델의 사고 흐름을 설계하는 프롬프트 엔지니어링이라는 점
- 평가의 기준이 명확해야 모델 개선이 가능하다는 점
📌 고민 포인트
- 실제 서비스에서 어떤 인용 형식이 UX와 가장 잘 맞을까?
- 다양한 문서 유형(리포트, 뉴스, 블로그 등)에 대해 인용 전략을 세분화할 필요가 있지 않을까?
① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장


② 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장


③ 챌린지 대상 강의 완강률 캡쳐 사진 1장

https://fastcampus.info/4n8ztzq
(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스
초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!
fastcampus.co.kr
'패스트캠퍼스환급챌린지' 카테고리의 다른 글
| 패스트캠퍼스 환급챌린지 34일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.08.03 |
|---|---|
| 패스트캠퍼스 환급챌린지 33일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.08.02 |
| 패스트캠퍼스 환급챌린지 31일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (1) | 2025.07.31 |
| 패스트캠퍼스 환급챌린지 30일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (6) | 2025.07.30 |
| 패스트캠퍼스 환급챌린지 29일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.07.29 |