※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. ※ 오늘은 기계 독해 데이터셋, KLUE MRC(Machine Reading Comprehension) 데이터를 활용해 RAG 학습용 데이터를 구성해봤습니다. 핵심 포인트는 질문당 정답과 무관한 문서를 'Negative Sample'로 구성하는 것이었는데요. 모델이 “답이 없는 문서”도 구분할 수 있어야 하기 때문입니다.아래 내용 정리를 통해 알아보도록하죠 😋 📚 KLUE-MRC: RAG 학습에 적합한 기계독해 데이터셋KLUE-MRC는 본문(context), 질문(question), 답변(answer)의 형태로 구성되어 있습니다.이는 RAG 학습에서 요구하는 구조와 유사하며, 추가 가공만 거치면 좋은 학습셋이 될 수 있죠!아래 필..