Posts

All the articles I've posted.

PhoenixCallbackHandler 만들기: OpenInference tracer를 LangChain callback으로 감싸기

15 Jun, 2026

Phoenix 공식 auto-instrumentation을 재구현하지 않고, OpenInference LangChain tracer를 얇게 감싸 CallbackHandler DX를 제공하는 패키지 설계를 정리합니다.
Arize Phoenix로 LangChain 트레이싱하기: auto_instrument와 CallbackHandler 방식 비교

15 Jun, 2026

Phoenix 공식 LangChain 연결 방식인 register(auto_instrument=True)가 내부에서 무엇을 하는지, Langfuse식 CallbackHandler 방식과 어떤 차이가 있는지 분석합니다.
Arize Phoenix 입문: LLM 앱을 trace, evaluate, debug하는 오픈소스 LLMOps

15 Jun, 2026

Arize Phoenix가 무엇인지, LangSmith·Langfuse와 무엇이 다른지, OpenTelemetry/OpenInference 기반 관측성을 어떻게 시작하는지 정리합니다.
한국어 RAG 벤치마크 결론: 모델을 키우기 전에 파이프라인을 먼저 봐야 했다

1 Jun, 2026

한국어 RAG 벤치마크 종합 — 같은 GPT-5.4로 파이프라인만 맞추면 accuracy 0.827로 10배 비싼 모델(+6.0pp)을 이긴다. 0.6B 한국어 리랭커가 4B SOTA를 +1.83pp. 리랭커가 지배 축. 7개 핵심 발견과 운영 권장 파이프라인을 한 문서로 정리한다.
단변량 1등을 쌓아도 최적 조합이 아니었다 — 한국어 RAG 384 전수 탐색

1 Jun, 2026

한국어 RAG Pre×Retrieval×Reranker 384개 조합 전수 채점 — 단변량 e2e judge 4위였던 query2doc이 jina-reranker-m0와 만나 전체 1위(judge 4.067/acc 0.827)가 됐다. 검색 MRR 1위와 답변 품질 1위는 달랐다. 축 상호작용 때문에 전수 탐색이 필요했다.
Open-weight LLM은 한국어 RAG에서 어디까지 왔나 — 생성 모델 46종과 Judge 신뢰도

1 Jun, 2026

한국어 RAG 생성 모델 46종(오픈 27 + 클로즈 19) 비교 — gpt-oss-120b·kimi-k2.5가 오픈 가중치 공동 1위(acc 0.740), gpt-oss-20b는 13GB VRAM으로 0.727. 클로즈 1위 gpt-5.4(0.787)와 격차 -4.7pp. LLM-as-Judge는 단일 모델로는 순위가 흔들렸다.
0.6B 한국어 Reranker가 4B SOTA를 이긴 이유 — 한국어 RAG 재순위화 25종 비교

1 Jun, 2026

한국어 RAG 리랭커 25종 단변량 비교 — 0.6B 한국어 fine-tune(dragonkue/bge-reranker-v2-m3-ko) MRR 0.7697로, 6.7배 큰 2025 SOTA Qwen3-Reranker-4B(0.7514)를 +1.83pp 앞섰다. Reranker는 RAG에서 가장 큰 단일 축이었다.
Dense만으로는 부족했다: 한국어 RAG에서 BM25-KIWI·Hybrid·Query 변형의 실제 효과

1 Jun, 2026

한국어 RAG 검색 단변량 비교 — Hybrid 3:7(Dense+BM25-KIWI) MRR 0.7171로 단독 검색을 모두 능가. BM25는 형태소(KIWI)가 필수(공백 대비 +14.4pp). Pre-Retrieval 쿼리 변형은 단변량 효과가 noise 수준이었다.
한국어 RAG 입력부: Loader·Chunker·Embedding에서 단순한 선택이 이겼다

1 Jun, 2026

한국어 RAG 300문항 단변량 비교 — PyMuPDF가 MRR 0.6486으로 1위, char 청커 dense 1위는 Chonkie Fast 800(0.6903)이나 격차가 noise라 표준 LC Recursive 300/50(0.6816 dense / 0.7171 hybrid)을 채택, KoE5가 8B 영어 모델을 +0.16 MRR로 앞섰다. 복잡한 처리보다 한국어 정렬이 중요했다.
한국어 RAG 벤치마크: 300문항으로 파이프라인 전체를 다시 쪼개 본 이유

1 Jun, 2026

한국어 RAG 파이프라인을 6단계로 쪼개고 384개 조합을 전수 비교한 벤치마크의 설계·데이터셋·평가 규칙. 300 Q&A × 58 PDF × 5 도메인, 46개 생성 모델(오픈 27 + 클로즈 19), 4지표 LLM-as-Judge, 약 120만 회 LLM 호출.
RunPod 레퍼럴 링크: $5~$500 GPU 크레딧 받고 시작하기

29 Apr, 2026

RunPod 추천 링크로 가입하고 첫 $10 충전 시 $5~$500 크레딧 보너스를 받아 GPU Pod와 Serverless를 테스트해보세요.
Vultr 레퍼럴 링크: $300 크레딧 받고 시작하기

29 Apr, 2026

Vultr 추천 링크로 가입하고 $300 크레딧 받아서 VPS, GPU, Kubernetes, Object Storage를 테스트해보세요.
Qwen3.5 로컬 추론 벤치마크 결과표: 4대 하드웨어 × 5개 엔진

Updated: 16 Apr, 2026

M5 Max, RTX 3090×2, DGX Spark GB10, Ryzen AI MAX 395에서 Qwen3.5 4개 모델(9B~122B)의 생성 속도, 프리필 속도를 llama.cpp, MLX, Ollama, vLLM, Lemonade로 측정한 결과 비교표.
로컬 LLM 추론 벤치마크: 4대 하드웨어 × 5개 엔진 실험 설계

Updated: 14 Apr, 2026

Qwen3.5 모델을 4개 플랫폼(M5 Max, RTX 3090×2, DGX Spark, Ryzen AI MAX 395+)에서 측정하는 크로스 플랫폼 벤치마크의 실험 설계, 방법론, 주의사항을 정리합니다.
Qwen3.5 크로스 플랫폼 벤치마크: 4대 하드웨어 × 5개 엔진 성능 비교

Updated: 14 Apr, 2026

Mac M5 Max, RTX 3090×2, DGX Spark, Ryzen AI MAX 395+에서 Qwen3.5를 동일 조건으로 측정한 벤치마크. cold prefill, cache 차단, 실행 순서 랜덤화 적용.

Posts

PhoenixCallbackHandler 만들기: OpenInference tracer를 LangChain callback으로 감싸기

Arize Phoenix로 LangChain 트레이싱하기: auto_instrument와 CallbackHandler 방식 비교

Arize Phoenix 입문: LLM 앱을 trace, evaluate, debug하는 오픈소스 LLMOps

한국어 RAG 벤치마크 결론: 모델을 키우기 전에 파이프라인을 먼저 봐야 했다

단변량 1등을 쌓아도 최적 조합이 아니었다 — 한국어 RAG 384 전수 탐색

Open-weight LLM은 한국어 RAG에서 어디까지 왔나 — 생성 모델 46종과 Judge 신뢰도

0.6B 한국어 Reranker가 4B SOTA를 이긴 이유 — 한국어 RAG 재순위화 25종 비교

Dense만으로는 부족했다: 한국어 RAG에서 BM25-KIWI·Hybrid·Query 변형의 실제 효과

한국어 RAG 입력부: Loader·Chunker·Embedding에서 단순한 선택이 이겼다

한국어 RAG 벤치마크: 300문항으로 파이프라인 전체를 다시 쪼개 본 이유

RunPod 레퍼럴 링크: $5~$500 GPU 크레딧 받고 시작하기

Vultr 레퍼럴 링크: $300 크레딧 받고 시작하기

Qwen3.5 로컬 추론 벤치마크 결과표: 4대 하드웨어 × 5개 엔진

로컬 LLM 추론 벤치마크: 4대 하드웨어 × 5개 엔진 실험 설계

Qwen3.5 크로스 플랫폼 벤치마크: 4대 하드웨어 × 5개 엔진 성능 비교