※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※

오늘은 임베딩 모델 파인튜닝을 위한 데이터셋을 어떻게 설계하고 준비해야 하는지에 대해 배웠습니다.
직접 실습을 하진 않았지만, OpenAI GPT-4o를 활용한 질문 생성부터 PDF 문서 전처리, 훈련-검증 데이터 분리까지의 흐름을 자세히 살펴볼 수 있었던 시간이었습니다 :)
📄 PDF 문서에서 학습 데이터 뽑기
이번 강의에서는 ‘미국 ICT 동향’과 ‘일본 ICT 동향’이라는 PDF 문서를 활용했습니다.
미국 문서는 모델을 학습시키는 데 사용하고, 일본 문서는 학습이 잘 되었는지를 검증하는 용도로 사용했죠.
각 문서는 페이지 단위로 나눠져 있으며, 길이가 10자를 초과하는 텍스트만 추출하여 학습 데이터로 활용했습니다.
이 과정에서 미국 문서는 26개, 일본 문서는 27개의 문서 청크(chunk)로 나뉘었습니다!
❓ GPT를 활용한 질의-응답 페어 자동 생성
자 그럼, 청크로 쪼갠 문서 파일을 파탕으로 어떻게 임베딩 파인튜닝을 위한 데이터를 준비할 수 있을까요?
우리가 하고자하는 작업은 질문과 적절한 답(Positive)의 쌍(Pair)를 만드는 것입니다.
하지만, 이런 데이터를 하나하나 직접 만들긴 너무 어렵죠... 🤣
그래서 GPT-4o의 도움을 받습니다.
GPT에게 아래와 같은 프롬프트를 주는 것이죠 (간소화 된 버전입니다)
위 내용을 바탕으로 낼 수 있는 질문을 N개 만들어주세요.
질문만 작성하고, 실제 정답이나 보기 등은 작성할 수 없습니다.
이렇게 프롬프트를 넣으면, GPT는 문서 내용을 바탕으로 질문만 딱 만들어주게 됩니다. 아래처럼요.
문서: “2024년 일본 반도체 산업은 전년 대비 15% 성장했고, 정부는 300억 엔을 투자했다.”
질문:
- 2024년 일본 반도체 산업의 성장률은 얼마인가?
- 일본 정부가 발표한 반도체 산업 추가 투자 금액은?
자, 그럼, 문서를 바탕으로 질문이 생성되었고, 자연스럽게 생성된 질문이 Positive 관계의 데이터가 될 수 있겠죠?
이렇게 문서값과, 질문값을 각각 queries와 positive_docs에 담아 두고 임베딩 모델에 학습시킬 수 있게 되죠.
🔗 왜 이렇게 데이터 쌍을 만들어야 하나요?
임베딩 모델은 문장(또는 질문)을 고차원 벡터로 바꾸는 역할을 합니다.
이때 가장 중요한 학습 목표는 다음과 같습니다.
- 유사한 질문-문서 쌍은 가까이
- 연관 없는 질문-문서 쌍은 멀리
예를 들어 “반도체 성장률?”이라는 질문이 들어오면,
모델은 관련된 문서를 벡터 공간에서 가장 가까운 위치에 있는 문서로 판단해서 리턴해야 합니다.
그러기 위해선 이런 질문-문서 쌍을 많이 주고, 관련성이 있다는 걸 학습시켜야 하는 거죠 😏
🤔 배운 점과 고민 포인트
✨ 배운 점
- 임베딩 파인튜닝 과정에서 GPT를 활용하여 질의-문서 쌍을 만들 수 있다는 것을 경험...!
- GPT를 활용하면 이런 데이터를 자동으로 대량 생성할 수 있어, 효율적인 학습이 가능함
📌 고민 포인트
- GPT를 활용한 질의 자동 생성이 놀라울 정도로 효율적이지만, 생성된 질문의 품질은 어떻게 검증할 수 있을까...?
- 단순한 문서 요약형 질문 외에도, 추론이 필요한 질문에 대응하는 학습은 어떻게 확장할 수 있을까?
① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장


② 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장


③ 챌린지 대상 강의 완강률 캡쳐 사진 1장

https://fastcampus.info/4n8ztzq
(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스
초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!
fastcampus.co.kr
'패스트캠퍼스환급챌린지' 카테고리의 다른 글
| 패스트캠퍼스 환급챌린지 32일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (6) | 2025.08.01 |
|---|---|
| 패스트캠퍼스 환급챌린지 31일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (1) | 2025.07.31 |
| 패스트캠퍼스 환급챌린지 29일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (2) | 2025.07.29 |
| 패스트캠퍼스 환급챌린지 28일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (3) | 2025.07.28 |
| 패스트캠퍼스 환급챌린지 27일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (4) | 2025.07.27 |