2BArtist

    2026/02 1

    [RAG 자기소개봇] 4. 허깅페이스 뜯어보기, 성능 평가 지표

    이 글의 목표- 객관적인 성능 평가 지표로 RAG 시스템 설계 평가하기이 글에 담긴 내용- 허깅페이스 모델카드 이해하기- 벤치마크- 모델 평가 기준 (F1, Accuracy, recall, em ... )- LLM as a judge 지금까지는 눈으로 직접 데이터를 확인하면서 챗봇이 맞는 말 하는지 아닌지 확인했다.그런데... 데이터가 몇만 몇억개면 어쩔텐가.. 객관적인 지표로 품질을 평가할 수 있는 지표가 있다.이번 포스팅에서는 LLM평가 객관적인 지표로 사용되는 개념들을 확인하고 취사선택하여 지금까지 만든 시스템 평가에 활용할 것이다. 일단 허깅페이스 모델카드를 이해해보자https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct meta-llama/Llama-..

    In progress 2026.02.01
    이전
    1
    다음
    더보기
    프로필사진

    2BArtist

    개발자의 멋있는 결과 모음집 하고 싶지만 막상 뜯어보면 번뇌와 해탈 저장소

    • 분류 전체보기 (28)
      • Projects (1)
      • In progress (4)
      • Study (0)
        • Korean language & literatur.. (4)
        • Information systems (9)
        • Basics (8)
        • NLP (2)

    Tag

    python basic, 네이버 부스트캠프 AI Tech, reranking, Rag, pipelines, langchian, chunking, LLMs, pre-processing, vectorDB, llm, DL basic, ai, AI project, Prompt Engineering, RNN, huggingface, embedding, deep learning,

    최근글과 인기글

    • 최근글
    • 인기글

    최근댓글

    공지사항

    페이스북 트위터 플러그인

    • Facebook
    • Twitter

    Archives

    Calendar

    «   2026/02   »
    일 월 화 수 목 금 토
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28

    방문자수Total

    • Today :
    • Yesterday :

    Copyright © AXZ Corp. All rights reserved.

    • Linkedin

    티스토리툴바