패스트캠퍼스환급챌린지

패스트캠퍼스 환급챌린지 32일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기

네모몽 2025. 8. 1. 08:00

 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※

 


 

오늘은 RAG(Retrieval-Augmented Generation)의 학습 데이터 설계 전략에 대해 가볍게 살펴봤습니다.
특히 RAFT 논문과 Cohere, GPT-4, Orion 등의 RAG 특화 모델 사례를 통해 실제로 어떤 방식이 효과적인지
그리고 학습 데이터 구성 시 유의할 점은 무엇인지를 대략적으로 정리해볼 수 있었어요. 😋

 

🧠 RAG 학습의 핵심: 출처 명시와 Negative Sample

RAG 학습 성능의 핵심은 다음 두 가지로 요약될 것 같아요.

  1. 출처 명시
    • 답변 생성 시 반드시 사용된 문서의 출처(예: 문서 번호, quote 등)를 명시하게 하자!
    • 이는 Hallucination을 줄이고, 평가 가능성을 높일 수 있는 방법
  2. Negative Sample 구성
    • 답변과 무관한 문서를 함께 제공해, 모델이 ‘관련 없는 문서’를 구분하도록 하자!
    • RAFT 논문에서도 이 전략으로 LLAMA2 모델이 GPT-3.5 RAG보다도 뛰어난 성능을 검증함

 

🧪 RAG 학습 데이터 구성 전략 요약

✅ 방법 1: 출처를 명시하는 방식 (Orion 방식)

  • 답변 끝에 실제로 참조한 문서 번호를 명시적으로 남김
  • ex) “이 기술은 미국 국방부가 2023년에 발표한 정책에 기초합니다. (출처: ---)”
  • 장점:
    • 모델 평가가 명확해짐
    • 출처를 인용하는 습관을 모델에게 학습시킴
    • 테스트 데이터에서도 정답 문서를 인용했는지 자동 평가 가능

✅ 방법 2: 텍스트 내 인용 태그 삽입 (Cohere 스타일)

  • <co:문서 번호></co:문서 번호>  형태로 원문 인용을 명시
  • 장점:
    • Chain-of-Thought 형태로 프롬프트 엔지니어링 가능
    • 할루시네이션 억제 효과
    • 텍스트 흐름 속에서 자연스럽게 인용을 강제할 수 있음

 

🧱 반드시 포함해야 할 데이터 유형들

학습 데이터는 다음과 같은 질문 유형과 상황을 모두 포함해하는 것이 좋다고 합니다.
이는 실제 사용자 질문의 다양성과 현실적인 검색 상황을 반영하기 위함이죠.

분류예시

구체적 질문 “11월 27일에 열린 세미나 장소는 어디인가요?”
넓은 질문 “세미나의 주제는 무엇인가요?”
명사형 질문 “세미나가 열린 장소”
검색 결과 없음 검색 결과에 답이 존재하지 않는 경우
검색 결과 다수 여러 문서를 인용해야 하는 답변
영어 대응 영어 질문 및 영어 문서 혼합
단일 인용 하나의 문서만 인용한 답변
복수 인용 여러 문서에서 정보를 종합한 답변

이러한 다양한 상황을 커버함으로써, 서비스 단계에서의 RAG 시스템이 예상치 못한 질문에 취약해지는 것을 방지할 수 있습니다 😗


🤔 배운 점과 고민 포인트

✨ 배운 점

  • RAG 학습에서는 성능을 위해 ‘정답을 포함하지 않는 문서’도 의도적으로 제공할 수 있다는 점
  • 문서 인용 방식은 단순한 정보 제공이 아니라, 모델의 사고 흐름을 설계하는 프롬프트 엔지니어링이라는 점
  • 평가의 기준이 명확해야 모델 개선이 가능하다는 점

📌 고민 포인트

  • 실제 서비스에서 어떤 인용 형식이 UX와 가장 잘 맞을까?
  • 다양한 문서 유형(리포트, 뉴스, 블로그 등)에 대해 인용 전략을 세분화할 필요가 있지 않을까?

 

① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장

패스트캠퍼스_LLM 서비스개발_32일차_공부시작/종료시간

 

 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장

패스트캠퍼스_LLM 서비스개발_32일차_수강인증/학습인증

 

 챌린지 대상 강의 완강률 캡쳐 사진 1장

패스트캠퍼스_LLM서비스개발_32일차_완강률캡처

 


 

https://fastcampus.info/4n8ztzq

 

(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스

초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!

fastcampus.co.kr