Posts
All the articles I've posted.
-
한국어 RAG 벤치마크 결론: 모델을 키우기 전에 파이프라인을 먼저 봐야 했다
한국어 RAG 벤치마크 종합 — 같은 GPT-5.4로 파이프라인만 맞추면 accuracy 0.827로 10배 비싼 모델(+6.0pp)을 이긴다. 0.6B 한국어 리랭커가 4B SOTA를 +1.83pp. 리랭커가 지배 축. 7개 핵심 발견과 운영 권장 파이프라인을 한 문서로 정리한다.
-
단변량 1등을 쌓아도 최적 조합이 아니었다 — 한국어 RAG 384 전수 탐색
한국어 RAG Pre×Retrieval×Reranker 384개 조합 전수 채점 — 단변량 e2e judge 4위였던 query2doc이 jina-reranker-m0와 만나 전체 1위(judge 4.067/acc 0.827)가 됐다. 검색 MRR 1위와 답변 품질 1위는 달랐다. 축 상호작용 때문에 전수 탐색이 필요했다.
-
Open-weight LLM은 한국어 RAG에서 어디까지 왔나 — 생성 모델 46종과 Judge 신뢰도
한국어 RAG 생성 모델 46종(오픈 27 + 클로즈 19) 비교 — gpt-oss-120b·kimi-k2.5가 오픈 가중치 공동 1위(acc 0.740), gpt-oss-20b는 13GB VRAM으로 0.727. 클로즈 1위 gpt-5.4(0.787)와 격차 -4.7pp. LLM-as-Judge는 단일 모델로는 순위가 흔들렸다.
-
0.6B 한국어 Reranker가 4B SOTA를 이긴 이유 — 한국어 RAG 재순위화 25종 비교
한국어 RAG 리랭커 25종 단변량 비교 — 0.6B 한국어 fine-tune(dragonkue/bge-reranker-v2-m3-ko) MRR 0.7697로, 6.7배 큰 2025 SOTA Qwen3-Reranker-4B(0.7514)를 +1.83pp 앞섰다. Reranker는 RAG에서 가장 큰 단일 축이었다.
-
Dense만으로는 부족했다: 한국어 RAG에서 BM25-KIWI·Hybrid·Query 변형의 실제 효과
한국어 RAG 검색 단변량 비교 — Hybrid 3:7(Dense+BM25-KIWI) MRR 0.7171로 단독 검색을 모두 능가. BM25는 형태소(KIWI)가 필수(공백 대비 +14.4pp). Pre-Retrieval 쿼리 변형은 단변량 효과가 noise 수준이었다.
-
한국어 RAG 입력부: Loader·Chunker·Embedding에서 단순한 선택이 이겼다
한국어 RAG 300문항 단변량 비교 — PyMuPDF가 MRR 0.6486으로 1위, char 청커 dense 1위는 Chonkie Fast 800(0.6903)이나 격차가 noise라 표준 LC Recursive 300/50(0.6816 dense / 0.7171 hybrid)을 채택, KoE5가 8B 영어 모델을 +0.16 MRR로 앞섰다. 복잡한 처리보다 한국어 정렬이 중요했다.
-
한국어 RAG 벤치마크: 300문항으로 파이프라인 전체를 다시 쪼개 본 이유
한국어 RAG 파이프라인을 6단계로 쪼개고 384개 조합을 전수 비교한 벤치마크의 설계·데이터셋·평가 규칙. 300 Q&A × 58 PDF × 5 도메인, 46개 생성 모델(오픈 27 + 클로즈 19), 4지표 LLM-as-Judge, 약 120만 회 LLM 호출.
-
RunPod 레퍼럴 링크: $5~$500 GPU 크레딧 받고 시작하기
RunPod 추천 링크로 가입하고 첫 $10 충전 시 $5~$500 크레딧 보너스를 받아 GPU Pod와 Serverless를 테스트해보세요.
-
Vultr 레퍼럴 링크: $300 크레딧 받고 시작하기
Vultr 추천 링크로 가입하고 $300 크레딧 받아서 VPS, GPU, Kubernetes, Object Storage를 테스트해보세요.
-
Qwen3.5 로컬 추론 벤치마크 결과표: 4대 하드웨어 × 5개 엔진
Updated:M5 Max, RTX 3090×2, DGX Spark GB10, Ryzen AI MAX 395에서 Qwen3.5 4개 모델(9B~122B)의 생성 속도, 프리필 속도를 llama.cpp, MLX, Ollama, vLLM, Lemonade로 측정한 결과 비교표.
-
로컬 LLM 추론 벤치마크: 4대 하드웨어 × 5개 엔진 실험 설계
Updated:Qwen3.5 모델을 4개 플랫폼(M5 Max, RTX 3090×2, DGX Spark, Ryzen AI MAX 395+)에서 측정하는 크로스 플랫폼 벤치마크의 실험 설계, 방법론, 주의사항을 정리합니다.
-
Qwen3.5 크로스 플랫폼 벤치마크: 4대 하드웨어 × 5개 엔진 성능 비교
Updated:Mac M5 Max, RTX 3090×2, DGX Spark, Ryzen AI MAX 395+에서 Qwen3.5를 동일 조건으로 측정한 벤치마크. cold prefill, cache 차단, 실행 순서 랜덤화 적용.
-
GraphRAG 파이프라인 실전 구축 — 벡터 검색에서 그래프 확장까지
벡터 RAG만으로 답할 수 없는 멀티홉 질문을 GraphRAG로 해결하는 방법. from_existing_graph 한 줄로 노드 벡터화, CypherQAChain으로 자연어→Cypher 자동 변환까지.
-
langchain-age 벡터 검색 완전 정복 — Hybrid Search, MMR, 메타데이터 필터링
pgvector 벡터 검색에서 Hybrid Search가 왜 필요한지, 어떤 전략을 언제 써야 하는지 실측 비교와 코드로 설명한다. HNSW vs IVFFlat 인덱스 선택 기준 포함.
-
PostgreSQL 하나로 AI Agent 전체 스택 — LangGraph + langchain-age
Neo4j+Redis+Pinecone 대신 PostgreSQL 1개로 AI Agent를 운영할 수 있을까? 그래프, 벡터, 체크포인트, 장기 메모리를 하나의 DB에 통합하는 실전 아키텍처.