※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※

하나의 문서만 보고 대답하는 언어 모델은 한계가 분명합니다.
현실의 질문은 여러 문서에 흩어져 있는 정보를 모아야 비로소 답이 되는 경우가 많거든요.
그래서 오늘은 두 개 이상의 문서를 인용해야만 답변할 수 있는 질문을 만들고,
그 질문에 대한 응답을 생성하는 과정을 실습했답니다. 😋
🧩 다문서 질문 생성 방식
하나의 샘플마다 5개의 문서를 묶어 모델에게 입력으로 제공했습니다.
그다음, GPT 모델에게 "2개 이상 문서를 반드시 인용해야만 답할 수 있는 질문"을 5개씩 만들도록 요청했죠.
질문이 만들어진 뒤에는 실제로 두 문서 이상이 인용되었는지 확인해서 그렇지 않은 건 걸러냈습니다.
특히, 문서 인용이 부족하거나 근거가 모호한 질문은 "=> False"로 처리하여 생성 데이터 셋에서 제외했어요.
그렇게 남은 질문들에 대해 GPT-4o 모델로 응답을 생성했습니다.
이때 응답에는 [[ref1]], [[ref2]]처럼 실제 인용 문서 번호도 포함되게 만들었죠.
🛠 데이터 전처리 및 구조
데이터를 모델 학습에 적합하게 만들기 위해 다음과 같은 형식으로 정리했습니다.
- multi_document_question: 여러 문서를 참조해야만 답할 수 있는 질문
- multi_document_answer: GPT 모델이 생성한 인용 포함 응답
- search_result: 해당 질문에 사용된 문서 5개
- extracted_ref_numbers: 응답에 실제로 언급된 문서 번호 목록
이 데이터는 Hugging Face에 업로드해 추후 파인튜닝 단계에서 손쉽게 재사용할 수 있게 했습니다.
🔍 인용 기준 및 검증 절차
응답에서 실제로 문서를 인용했는지를 확인하는 절차가 생각보다 매우 중요했습니다.
내가 의도한 데이터가 잘 생성되었는지 검증하는 단계이기 때문이죠.
- 응답 내 [[refN]] 형식이 2개 이상 포함되었는지 확인
- 인용이 없거나 1개만 인용된 경우는 제외
- 다문서 인용 기준을 만족하는 응답만 최종 데이터셋에 포함
이런 과정을 거쳐 질문과 응답이 어떤 문서를 기반으로 생성되었는지 명확하게 알 수 있는 구조의 데이터셋이 만들어졌답니다.
🤔 배운 점과 고민 포인트
✨ 배운 점
- 다문서 기반 질문을 생성하려면 단일 문서 기반 프롬프트에 비해 질문 설계가 훨씬 정교해야함...!
- 프롬프트 설계와 문서 구성, 질문 검증 로직 없이 단순히 모델에게 맡기기에는 올바른 학습 데이터를 얻기 힘들 수 있음
🤔 고민 포인트
- 응답 다양성 확보: 동일한 질문에 대해 다양한 방식의 응답을 생성하고 비교 평가할 수 있는 구조가 있으면 모델 평가 및 개선에 더 도움이 될 것 같음
① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장


② 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장


③ 챌린지 대상 강의 완강률 캡쳐 사진 1장

https://fastcampus.info/4n8ztzq
(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스
초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!
fastcampus.co.kr
'패스트캠퍼스환급챌린지' 카테고리의 다른 글
| 패스트캠퍼스 환급챌린지 38일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.08.07 |
|---|---|
| 패스트캠퍼스 환급챌린지 37일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (3) | 2025.08.06 |
| 패스트캠퍼스 환급챌린지 35일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (3) | 2025.08.04 |
| 패스트캠퍼스 환급챌린지 34일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.08.03 |
| 패스트캠퍼스 환급챌린지 33일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.08.02 |