Tag: inference

All the articles with the tag "inference".

Qwen3.5 로컬 추론 벤치마크 결과표: 4대 하드웨어 × 5개 엔진

Updated: 16 Apr, 2026

M5 Max, RTX 3090×2, DGX Spark GB10, Ryzen AI MAX 395에서 Qwen3.5 4개 모델(9B~122B)의 생성 속도, 프리필 속도를 llama.cpp, MLX, Ollama, vLLM, Lemonade로 측정한 결과 비교표.