'2026/02 글 목록

[RAG 자기소개봇] 4. 허깅페이스 뜯어보기, 성능 평가 지표

이 글의 목표- 객관적인 성능 평가 지표로 RAG 시스템 설계 평가하기이 글에 담긴 내용- 허깅페이스 모델카드 이해하기- 벤치마크- 모델 평가 기준 (F1, Accuracy, recall, em ... )- LLM as a judge 지금까지는 눈으로 직접 데이터를 확인하면서 챗봇이 맞는 말 하는지 아닌지 확인했다.그런데... 데이터가 몇만 몇억개면 어쩔텐가.. 객관적인 지표로 품질을 평가할 수 있는 지표가 있다.이번 포스팅에서는 LLM평가 객관적인 지표로 사용되는 개념들을 확인하고 취사선택하여 지금까지 만든 시스템 평가에 활용할 것이다. 일단 허깅페이스 모델카드를 이해해보자https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct meta-llama/Llama-..

In progress 2026.02.01

« 2026/02 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

2BArtist

2026/02 1

티스토리툴바