2BArtist

    llm 1

    [RAG 자기소개봇] 1. 문서를 RAG에 맞게 파싱 및 데이터 정제

    이 글의 주요 목표- 유형별 문서를 의미 단위로 파싱- RAG 챗봇 프로젝트에 사용 가능하도록 정제이 글에 담긴 내용- 기본적인 데이터 수동 전처리- Langchain을 이용한 문서 청킹과 정제- docx, pdf 타입 에세이, resume 등 타입에 따른 청킹과 정제- 임베딩을 위한 메타데이터 설계 어떻게 문서를 파싱할까?Langchain을 활용한 문서 Loading, Text Splittingdocx 타입 문서의 경우 Python 라이브러리 중 python-docx, docling 여러가지 parser를 통해 처리할 수 있다.이 프로젝트는 RAG 용 데이터를 구축하는 게 목적이고, 복잡한 제약조건이 없기 때문에 langchain을 사용해 간단하게 파싱 후 정제하기로 해 본다. langchain은 RA..

    In progress 2026.01.20
    이전
    1
    다음
    더보기
    프로필사진

    2BArtist

    개발자의 멋있는 결과 모음집 하고 싶지만 막상 뜯어보면 번뇌와 해탈 저장소

    • 분류 전체보기 (28)
      • Projects (1)
      • In progress (4)
      • Study (0)
        • Korean language & literatur.. (4)
        • Information systems (9)
        • Basics (8)
        • NLP (2)

    Tag

    deep learning, Prompt Engineering, embedding, python basic, langchian, 네이버 부스트캠프 AI Tech, chunking, pre-processing, llm, AI project, DL basic, huggingface, Rag, ai, reranking, RNN, vectorDB, LLMs, pipelines,

    최근글과 인기글

    • 최근글
    • 인기글

    최근댓글

    공지사항

    페이스북 트위터 플러그인

    • Facebook
    • Twitter

    Archives

    Calendar

    «   2026/02   »
    일 월 화 수 목 금 토
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28

    방문자수Total

    • Today :
    • Yesterday :

    Copyright © AXZ Corp. All rights reserved.

    • Linkedin

    티스토리툴바