패스트캠퍼스 환급챌린지 29일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기

패스트캠퍼스환급챌린지

패스트캠퍼스 환급챌린지 29일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기

네모몽 2025. 7. 29. 23:30

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※

오늘은 임베딩 모델을 어떻게 파인튜닝하는지, 그중에서도 특히 MultipleNegativesRankingLoss라는 기법을 활용해 효율적으로 학습하는 방식에 대해 배웠습니다.
실습은 아니었지만, 개념과 예제를 함께 살펴보며 임베딩 파인튜닝이 실제 검색 시스템이나 RAG 기반 챗봇에서 어떻게 쓰이는지 감을 잡을 수 있었던 시간이었답니다 😏

📌 임베딩 모델이란?

임베딩은 텍스트 데이터를 고차원 벡터로 변환하는 작업입니다!
이 벡터 데이터에 문장의 의미를 담아내는 것이 핵심이며, 벡터 간의 거리를 비교하면 문장 간 유사도를 측정할 수 있게됩니다.

예를 들어, “서울의 인구는?”과 “서울에는 몇 명이 살고 있나요?”는 임베딩 상에서도 매우 가까운 위치에 있도록 학습해야 하겠죠?

🎯 파인튜닝 목표

임베딩 모델의 파인튜닝은 다음을 목표로 합니다.

의미적으로 유사한 문장은 가깝게
의미적으로 관련 없는 문장은 멀게

이런 방식은 검색 혹은 추천 시스템, 그리고 최근 각광받는 RAG 기반 AI 시스템의 기반이 됩니다.

✅ 전통적인 방식의 한계

기존에 임베딩 파인튜닝을 하기 위해서는 (앵커, 포지티브, 네거티브) 구조의 트리플렛 데이터를 직접 구성해야 했습니다.

예를 들어 아래처럼요.

# 앵커, 포지티브, 네거티브
("파이썬 기초 강의", "파이썬 입문서", "자바스크립트 가이드")

앵커는 질문, 포지티브는 원하는 답변, 네거티브는 나오면 안되는 답변이라고 보면 돼요.

하지만 이러한 전통적인 방식은 데이터 준비가 매우 번거롭고 비용이 많이 듭니다.
특히 ‘적절한’ 네거티브 샘플을 수동으로 선별하는 작업은 고된 작업이죠.

🔥 MultipleNegativesRankingLoss란?

이런 문제를 해결해주는 방식이 바로 MultipleNegativesRankingLoss입니다.

핵심 개념은 간단합니다.

배치 안의 다른 포지티브 쌍을 자동으로 네거티브로 활용합니다.
즉, 네거티브 데이터를 별도로 준비할 필요가 없습니다.

예를 들어 아래와 같이 배치가 구성되었다고 해보겠습니다:

[
  ("AI란?", "AI는 인간의 지능을 흉내내는 기술입니다."),
  ("딥러닝이란?", "딥러닝은 신경망을 여러 층 쌓아 학습하는 기법입니다."),
  ...
]

이 배치 안에서 첫 번째 쌍을 포지티브는 두 번째 쌍의 응답을 네거티브로 사용합니다.
이런 방식으로 네거티브 샘플을 자동 생성하므로 학습이 훨씬 간단해집니다.

🧠 하드 네거티브 샘플링

기본적인 네거티브가 너무 쉬운 경우, 일부러 헷갈리는 문장을 네거티브로 제공해 학습 효과를 극대화할 수도 있습니다.

공식 문서에 따르면, MultipleNegativesRankingLoss에서 하드 네거티브는 아래와 같은 형태로 데이터를 구조화하여 제공한다고 하네요.

InputExample(
  texts=["AI란 무엇인가?", 
         "AI는 인간 지능을 모방한 기술입니다.", 
         "AI는 로봇 같은 물리적 형태입니다."]
)

이런 하드 네거티브는 성능 향상에 큰 도움이 되지만, 준비 비용이 조금 더 들겠죠.

🤔 배운 점과 고민 포인트

✨ 배운 점

임베딩 파인튜닝은 데이터 검색, RAG 등 실무에서 매우 중요한 기반 기술임을 이해
MultipleNegativesRankingLoss 덕분에 포지티브 데이터만으로도 효율적인 학습이 가능함을 이해
배치 내 네거티브 샘플링, 하드 네거티브 구성, temperature 설정 등 다양한 성능 최적화 포인트도 정리할 수 있었음

📌 고민 포인트

배치 크기와 temperature(scale) 값의 최적 조합은 실험적으로 찾아야 함

① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장

② 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장

③ 챌린지 대상 강의 완강률 캡쳐 사진 1장

https://fastcampus.info/4n8ztzq

(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스

초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!

fastcampus.co.kr

저작자표시 변경금지 (새창열림)

'패스트캠퍼스환급챌린지' 카테고리의 다른 글

패스트캠퍼스 환급챌린지 31일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (1)	2025.07.31
패스트캠퍼스 환급챌린지 30일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (6)	2025.07.30
패스트캠퍼스 환급챌린지 28일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (3)	2025.07.28
패스트캠퍼스 환급챌린지 27일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (4)	2025.07.27
패스트캠퍼스 환급챌린지 26일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기 (3)	2025.07.26

현재글패스트캠퍼스 환급챌린지 29일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기

.NemoBox.

llama, 습관형성, react에이전트, 환급챌린지, Bert, gpt4o, 페르소나챗봇, LangChain, 직장인자기계발, RAG, 패스트캠퍼스후기, Lora, 오공완, 파인튜닝, 프롬프트엔지니어링, SFTTrainer, GPT, LLM, 패스트캠퍼스, 임베딩,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

.NemoBox.