Tag: embedding
All the articles with the tag "embedding".
-
한국어 RAG 입력부: Loader·Chunker·Embedding에서 단순한 선택이 이겼다
한국어 RAG 300문항 단변량 비교 — PyMuPDF가 MRR 0.6486으로 1위, char 청커 dense 1위는 Chonkie Fast 800(0.6903)이나 격차가 noise라 표준 LC Recursive 300/50(0.6816 dense / 0.7171 hybrid)을 채택, KoE5가 8B 영어 모델을 +0.16 MRR로 앞섰다. 복잡한 처리보다 한국어 정렬이 중요했다.