패스트캠퍼스환급챌린지

패스트캠퍼스 환급챌린지 30일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기

네모몽 2025. 7. 30. 08:00

 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※


 

오늘은 임베딩 모델 파인튜닝을 위한 데이터셋을 어떻게 설계하고 준비해야 하는지에 대해 배웠습니다.
직접 실습을 하진 않았지만, OpenAI GPT-4o를 활용한 질문 생성부터 PDF 문서 전처리, 훈련-검증 데이터 분리까지의 흐름을 자세히 살펴볼 수 있었던 시간이었습니다 :)

 

📄 PDF 문서에서 학습 데이터 뽑기

이번 강의에서는 ‘미국 ICT 동향’과 ‘일본 ICT 동향’이라는 PDF 문서를 활용했습니다.

미국 문서는 모델을 학습시키는 데 사용하고, 일본 문서는 학습이 잘 되었는지를 검증하는 용도로 사용했죠.

각 문서는 페이지 단위로 나눠져 있으며, 길이가 10자를 초과하는 텍스트만 추출하여 학습 데이터로 활용했습니다.

 

이 과정에서 미국 문서는 26개, 일본 문서는 27개의 문서 청크(chunk)로 나뉘었습니다!

 

❓ GPT를 활용한 질의-응답 페어 자동 생성

자 그럼, 청크로 쪼갠 문서 파일을 파탕으로 어떻게 임베딩 파인튜닝을 위한 데이터를 준비할 수 있을까요?

 

우리가 하고자하는 작업은 질문과 적절한 답(Positive)의 쌍(Pair)를 만드는 것입니다.

하지만, 이런 데이터를 하나하나 직접 만들긴 너무 어렵죠... 🤣
그래서 GPT-4o의 도움을 받습니다.

 

GPT에게 아래와 같은 프롬프트를 주는 것이죠 (간소화 된 버전입니다)

 위 내용을 바탕으로 낼 수 있는 질문을 N개 만들어주세요.
 질문만 작성하고, 실제 정답이나 보기 등은 작성할 수 없습니다.

 

이렇게 프롬프트를 넣으면, GPT는 문서 내용을 바탕으로 질문만 딱 만들어주게 됩니다. 아래처럼요.

 

문서: “2024년 일본 반도체 산업은 전년 대비 15% 성장했고, 정부는 300억 엔을 투자했다.”

질문:

  1. 2024년 일본 반도체 산업의 성장률은 얼마인가?
  2. 일본 정부가 발표한 반도체 산업 추가 투자 금액은?

 

자, 그럼, 문서를 바탕으로 질문이 생성되었고, 자연스럽게 생성된 질문이 Positive 관계의 데이터가 될 수 있겠죠?
이렇게 문서값과, 질문값을 각각 queries와 positive_docs에 담아 두고 임베딩 모델에 학습시킬 수 있게 되죠.

 

🔗 왜 이렇게 데이터 쌍을 만들어야 하나요?

임베딩 모델은 문장(또는 질문)을 고차원 벡터로 바꾸는 역할을 합니다.
이때 가장 중요한 학습 목표는 다음과 같습니다.

  • 유사한 질문-문서 쌍은 가까이
  • 연관 없는 질문-문서 쌍은 멀리

예를 들어 “반도체 성장률?”이라는 질문이 들어오면,
모델은 관련된 문서를 벡터 공간에서 가장 가까운 위치에 있는 문서로 판단해서 리턴해야 합니다.

그러기 위해선 이런 질문-문서 쌍을 많이 주고, 관련성이 있다는 걸 학습시켜야 하는 거죠 😏


🤔 배운 점과 고민 포인트

✨ 배운 점

  • 임베딩 파인튜닝 과정에서 GPT를 활용하여 질의-문서 쌍을 만들 수 있다는 것을 경험...!
  • GPT를 활용하면 이런 데이터를 자동으로 대량 생성할 수 있어, 효율적인 학습이 가능함

📌 고민 포인트

  • GPT를 활용한 질의 자동 생성이 놀라울 정도로 효율적이지만, 생성된 질문의 품질은 어떻게 검증할 수 있을까...?
  • 단순한 문서 요약형 질문 외에도, 추론이 필요한 질문에 대응하는 학습은 어떻게 확장할 수 있을까?

 

① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장

패스트캠퍼스_LLM 서비스개발_30일차_공부시작/종료시간

 

 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장

패스트캠퍼스_LLM 서비스개발_30일차_수강인증/학습인증

 

 챌린지 대상 강의 완강률 캡쳐 사진 1장

패스트캠퍼스_LLM서비스개발_30일차_완강률캡처

 


 

https://fastcampus.info/4n8ztzq

 

(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스

초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!

fastcampus.co.kr