패스트캠퍼스환급챌린지

패스트캠퍼스 환급챌린지 17일차 : 파인튜닝과 RAG로 완성하는 맞춤형 LLM 서비스 개발 강의 후기

네모몽 2025. 7. 17. 22:00

 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※


 

오늘은 LLM 문제 해결 과정에서 데이터 탐색프롬프트 엔지니어링 사례들을 가볍게 살펴보는 시간을 가졌습니다.
코드를 둘러보는 강의는 내일 들어볼 예정이라 오늘은 각 사례가 어떤 방식으로 접근됐는지, 어떤 아이디어들이 있었는지 감을 잡는 데 집중했습니다 😋

 

📦 합성 데이터?

문제 해결 과정에서 실제 데이터를 모으기 어렵거나, 민감한 데이터로 인해 외부 반출이 어려운 상황있을 수 있습니다.

이 때, LLM을 활용하여 자체적으로 데이터를 생성해 파인튜닝용으로 사용하거나, RAG 검색 질문을 다양화하는 데 사용할  수 있는데요.

이렇게 AI 기술을 이용하여 만든, 인간이 생성하지 않은 데이터를 "합성 데이터"라고 합니다.

 

물론! ‘많이 생성하면 장땡’이 아니라, 프롬프트 설계, 품질 검증, 편향 관리까지 함께 고민해야 한다는 점을 기억해야 하겠습니다.

 

🔍 둘러본 사례

📦 공장 고장 데이터 자동 분류

지난번에도 사례 설명을 들었던 공장 설비 고장 내역 자동 분류하는 문제였습니다.

해당 공장은 외부 인터넷망이 차단되어있고 GPU가 없는 환경이었다고 합니다.

반출받은 약 3,000건 데이터를 GPT-4 API로  가공했고, 공장 내 데스크톱 사양을 고려하여 T5 같은 소형 모델에 파인튜닝했다고 합니다.
Colab 무료 GPU로 학습을 진행했기 때문에 GPT API를 사용하면서 발생한 데이터 생성 비용이 약 0.9달러를 제외하고는 소모 비용이 없다는 점에서 꽤 흥미로운 문제 사례였습니다. (비용 최적화는 못참지;;)

📊 ESG 점수 산출

데이터가 전혀 없는 상황에서 뉴스 기사나 보고서를 보고 E, S, G 점수를 산출하는 LLM 설계 사례도 등장했습니다.
프롬프트에 명확한 평가 기준(점수 평가 기준의 정확성을 위해 도메인 전문가에게 컨펌)을 넣고, 답변에는 점수뿐 아니라 반드시 근거를 작성하도록 강제해 CoT(Chain of Thought) 효과까지 노린 부분이 특히 인상적이었습니다.

🔎 RAG 질문 다양화

RAG 성능을 높이기 위해 질문 유형을 다양화를 진행한 내용도 있었습니다.
예를 들어 단답형, 설명형, 영어 질문, 명사구 질문 등 여러 유형을 합성해 데이터셋을 풍성하게 만들고,
GPT-4o로 한 번에 다섯 개 질문을 생성하고, 스스로 질문을 검증하게 한 설계가 언급되었습니다.


💡 배운 점과 고민 포인트

  • 답변에 근거를 강제하거나 CoT를 유도하는 방식은 답변의 신뢰성을 높이는 데 도움을 준다!
  • 문제해결에 이어 비용최적화에 대한 고민 추가...!

 

① 오늘자 날짜, 공부 시작, 종료 시각 포함 사진 각 1장

패스트캠퍼스_LLM 서비스개발_17일차_공부시작/종료시간

 

 1개 클립 수강 인증 사진 1장 / 학습 인증 사진 1장

패스트캠퍼스_LLM서비스개발_17일차_수강인증/학습인증

 

 챌린지 대상 강의 완강률 캡쳐 사진 1장

패스트캠퍼스_LLM서비스개발_17일차_완강률캡처

 


 

https://fastcampus.info/4n8ztzq

 

(~6/20) 50일의 기적 AI 환급반💫 | 패스트캠퍼스

초간단 미션! 하루 20분 공부하고 수강료 전액 환급에 AI 스킬 장착까지!

fastcampus.co.kr