이 글의 목표- 객관적인 성능 평가 지표로 RAG 시스템 설계 평가하기이 글에 담긴 내용- 허깅페이스 모델카드 이해하기- 벤치마크- 모델 평가 기준 (F1, Accuracy, recall, em ... )- LLM as a judge 지금까지는 눈으로 직접 데이터를 확인하면서 챗봇이 맞는 말 하는지 아닌지 확인했다.그런데... 데이터가 몇만 몇억개면 어쩔텐가.. 객관적인 지표로 품질을 평가할 수 있는 지표가 있다.이번 포스팅에서는 LLM평가 객관적인 지표로 사용되는 개념들을 확인하고 취사선택하여 지금까지 만든 시스템 평가에 활용할 것이다. 일단 허깅페이스 모델카드를 이해해보자https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct meta-llama/Llama-..