Tag: llm-judge

All the articles with the tag "llm-judge".

한국어 RAG 벤치마크 결론: 모델을 키우기 전에 파이프라인을 먼저 봐야 했다

1 Jun, 2026

한국어 RAG 벤치마크 종합 — 같은 GPT-5.4로 파이프라인만 맞추면 accuracy 0.827로 10배 비싼 모델(+6.0pp)을 이긴다. 0.6B 한국어 리랭커가 4B SOTA를 +1.83pp. 리랭커가 지배 축. 7개 핵심 발견과 운영 권장 파이프라인을 한 문서로 정리한다.
Open-weight LLM은 한국어 RAG에서 어디까지 왔나 — 생성 모델 46종과 Judge 신뢰도

1 Jun, 2026

한국어 RAG 생성 모델 46종(오픈 27 + 클로즈 19) 비교 — gpt-oss-120b·kimi-k2.5가 오픈 가중치 공동 1위(acc 0.740), gpt-oss-20b는 13GB VRAM으로 0.727. 클로즈 1위 gpt-5.4(0.787)와 격차 -4.7pp. LLM-as-Judge는 단일 모델로는 순위가 흔들렸다.
한국어 RAG 벤치마크: 300문항으로 파이프라인 전체를 다시 쪼개 본 이유

1 Jun, 2026

한국어 RAG 파이프라인을 6단계로 쪼개고 384개 조합을 전수 비교한 벤치마크의 설계·데이터셋·평가 규칙. 300 Q&A × 58 PDF × 5 도메인, 46개 생성 모델(오픈 27 + 클로즈 19), 4지표 LLM-as-Judge, 약 120만 회 LLM 호출.

한국어 RAG 벤치마크 결론: 모델을 키우기 전에 파이프라인을 먼저 봐야 했다