Skip to content
BAEM1N.DEV — AI, RAG, LLMOps 개발 블로그
Go back

Qwen3.5 크로스 플랫폼 벤치마크: 4대 하드웨어 × 5개 엔진 성능 비교

Updated:

TL;DR: 동일 모델·동일 가중치로 4대 하드웨어를 비교하면, RTX 3090×2가 절대 속도 1위(35B MoE 139 tok/s), Mac M5 Max가 TTFT 안정성 최강. MoE 35B-A3B는 전 플랫폼에서 9B Dense보다 빠르다. vLLM GPTQ-Marlin은 156 tok/s로 전체 실험 최고.

실험 설계는 1편: 실험 방법론을 참고.

데이터 기준: 각 조합별 warmup 1회 + measure 5회 중앙값, CV<0.3 필터, 이상치·중복 제거. Raw CSV: baem1n/llm-bench.

Table of contents

Open Table of contents

하드웨어 스펙

M5 Max (128GB)3090×2 (48GB VRAM)DGX Spark GB10 (128GB)Ryzen AI MAX 395 (96GB)
GPUApple GPU 40CRTX 3090 ×2GB10 BlackwellRadeon 8060S 40CU
메모리128GB unified128GB DDR4 + 48GB VRAM128GB unified128GB (96GB VRAM)
대역폭546 GB/s~936 GB/s GDDR6X273 GB/s256 GB/s

Track B: 하드웨어 비교

변수는 하드웨어뿐. llama.cpp + 동일 unsloth GGUF + 동일 설정.

Generation 속도 (gen-512, 중앙값 tok/s)

Q4_K_M:

모델M5 Max3090×2DGX SparkRyzen AI
9B Dense75.9117.636.832.6
27B Dense24.841.411.510.3
35B-A3B MoE94.1138.959.658.0
122B-A10B MoE42.9130.721.722.9

Q8_0:

모델M5 Max3090×2DGX SparkRyzen AI
9B50.882.224.321.7
27B16.927.57.67.1
35B-A3B88.4130.352.650.8

MoE(35B-A3B)는 정말 9B Dense보다 빠른가?

전 플랫폼에서 35B-A3B MoE(3B active)가 9B Dense보다 빠르다:

플랫폼9B Dense35B-A3B MoEMoE 우위
M5 Max75.994.1+24%
3090×2117.6138.9+18%
DGX Spark36.859.6+62%
Ryzen AI32.658.0+78%

어떤 엔진이 각 하드웨어에서 가장 빠른가?

⚠️ 같은 플랫폼 내부에서만 비교. 다른 플랫폼의 다른 엔진끼리는 비교하지 않는다.

M5 Max에서 MLX는 llama.cpp보다 얼마나 빠른가? (gen-512, Q4_K_M)

모델MLXllama.cppMLX 우위
9B103.275.4+37%
27B28.8
35B-A3B139.091.0+53%
122B66.838.5+73%

RTX 3090×2에서 vLLM GPTQ-Marlin은 llama.cpp를 이기는가? (gen-512, Q4_K_M)

모델vLLMllama.cppOllama
9B83.6117.3100.5
27B19.341.536.7
35B-A3B156.3138.7101.7

DGX Spark: llamacpp vs Ollama vs vLLM Docker (gen-512, Q4_K_M)

모델llama.cppOllamavLLM Docker
9B35.735.112.9
27B11.511.48.5
35B-A3B61.259.234.8
122B22.06.6

Ryzen AI: llama.cpp vs Ollama (gen-512, Q4_K_M)

모델llama.cppOllama
9B36.231.9
27B12.311.1
35B-A3B58.443.9
122B22.84.6

핵심 발견

  1. 3090 2-WAY 절대 속도 1위 — GDDR6X 936 GB/s 대역폭. 122B MoE 131 tok/s.
  2. Mac M5 Max 실사용 최강 — TTFT 120ms 안정. MLX 35B 139 tok/s.
  3. vLLM GPTQ-Marlin 최고 기록 — 35B MoE 156.3 tok/s (llamacpp +12%).
  4. DGX Spark 대역폭 병목 — 273 GB/s로 Mac(546)의 절반.
  5. Ryzen AI 122B 실행 가능 — $2,000대 미니 PC에서 22.9 tok/s.
  6. MoE 보편적 효율 — 35B-A3B(3B active) > 9B Dense, 전 플랫폼 +18~78%.

OOM / 실패

플랫폼조합사유
3090×2122B llamacpp prefill48GB + 256K KV 초과
3090×2vLLM 27B/35B Q8 BF16VRAM 초과
3090×2Ollama 27B Q8, 122Bswap (5 tok/s)
DGX SparkvLLM pipCUDA 13/12 호환 → Docker 해결
Ryzen AIOllama 122Bswap (4.6 tok/s)

데이터

각 조합 warmup 1회 + measure 5회 중앙값. 이상치·중복 제거, CV<0.3 필터. 모델: Qwen3.5, 양자화: unsloth GGUF.

플랫폼디바이스 CSV
M5 Max (macbook-m-series)mac.csv
RTX 3090×2 (linux-3090x2)linux-3090x2.csv
DGX Spark GB10dgx-spark.csv
Ryzen AI MAX 395+ryzen-ai.csv
전체 통합all_devices.csv

실험 코드 + raw data: baem1n/llm-bench


실험 코드: baem1n/llm-bench | 방법론: 1편


AI-assisted content
Share this post on:

Next Post
로컬 LLM 추론 벤치마크: 4대 하드웨어 × 5개 엔진 실험 설계