이 글의 주요 목표- 유형별 문서를 의미 단위로 파싱- RAG 챗봇 프로젝트에 사용 가능하도록 정제이 글에 담긴 내용- 기본적인 데이터 수동 전처리- Langchain을 이용한 문서 청킹과 정제- docx, pdf 타입 에세이, resume 등 타입에 따른 청킹과 정제- 임베딩을 위한 메타데이터 설계 어떻게 문서를 파싱할까?Langchain을 활용한 문서 Loading, Text Splittingdocx 타입 문서의 경우 Python 라이브러리 중 python-docx, docling 여러가지 parser를 통해 처리할 수 있다.이 프로젝트는 RAG 용 데이터를 구축하는 게 목적이고, 복잡한 제약조건이 없기 때문에 langchain을 사용해 간단하게 파싱 후 정제하기로 해 본다. langchain은 RA..