ai 2

[RAG 자기소개봇] 3. 검색과 응답 품질을 높이는 방법

이 글의 주요 목표- 부자연스러운 응답의 품질 향상이 글에 담긴 내용- Reranking (적용하지는 않음)- 메타데이터의 confidence score활용 - 프롬프트 엔지니어링 (시스템 프롬프트 설정)- 번외 : 그래프 데이터베이스와 연결 (적용하지는 않음) 오늘은 화나는 일도 있고 갑자기 살기 팍팍해졌으므로 좀 즐겁게 글을 써 보겠다.셀프 즐거움라이팅 시작 지금 현재 상황으로는 내 이력서 및 자기소개서 (영어 및 한국어) 데이터를 청킹 -> 임베딩 해 둔 상태다. Question: 이력서에서 AI 관련 프로젝트는 뭐야? Answer: AI Consultant로 프로젝트를 수행했습니다. Fine-tuned LLMs, prompt generation, RLHF, Trust & Safety conten..

In progress 2026.01.28

[RAG 자기소개봇] 1. 문서를 RAG에 맞게 파싱 및 데이터 정제

이 글의 주요 목표- 유형별 문서를 의미 단위로 파싱- RAG 챗봇 프로젝트에 사용 가능하도록 정제이 글에 담긴 내용- 기본적인 데이터 수동 전처리- Langchain을 이용한 문서 청킹과 정제- docx, pdf 타입 에세이, resume 등 타입에 따른 청킹과 정제- 임베딩을 위한 메타데이터 설계 어떻게 문서를 파싱할까?Langchain을 활용한 문서 Loading, Text Splittingdocx 타입 문서의 경우 Python 라이브러리 중 python-docx, docling 여러가지 parser를 통해 처리할 수 있다.이 프로젝트는 RAG 용 데이터를 구축하는 게 목적이고, 복잡한 제약조건이 없기 때문에 langchain을 사용해 간단하게 파싱 후 정제하기로 해 본다. langchain은 RA..

In progress 2026.01.20