DGX Spark 에서 쉽게 Qwen3.6 35B-A3B FP8 서빙 : 클리앙

스크린샷 2026-04-25 162243.png

스파크 호환 제품으로 매일 연구하면서 지금은 거의 vLLM으로 정착해 가고 있습니다.

처음에는 llama.cpp 편했는데.. 지금은 성능에 목마름으로 vLLM 으로 정착했습니다. ㅎㅎ

이번에 출시한 Qwen 3.6 35b 모델이 생각보다 좋아서 로컬 LLM 고민하시는 분께 추천드려요.

콘솔에서 명령어만 붙여 넣으시면 거의 자동으로 됩니다.

1. 모델을 다운받습니다.

저는 모델을 한 폴더에 저장해 놓고 사용하고 있습니다. (외장하드 마운트)
~/models/Qwen3.6-35B-A3B-FP8 에 허깅스페이스에서 다운 받습니다.

mkdir -p ~/models
cd ~/models
hf download Qwen/Qwen3.6-35B-A3B-FP8 \
  --local-dir Qwen3.6-35B-A3B-FP8 \
  --resume-download

2. DGX Spark eugr vLLM 을 다운/설치합니다.

git clone https://github.com/eugr/spark-vllm-docker.git
cd spark-vllm-docker
./build-and-copy.sh --tf5

3.모델 프로필을 만듭니다.

cd ~/spark-vllm-docker/recipes
nano qwen3.5-35b-a3b-fp8.yaml

(에디터가 열립니다)
아래 내용을 복사후 붙여넣기, 컨트롤+s, 컨트롤+x 하면 끝

recipe_version: "1"
name: Qwen36-35B-A3B-FP8
description: vLLM serving local Qwen3.6-35B-A3B-FP8

solo_only: true

container: vllm-node-tf5

mods: []

defaults:
  port: 8100
  host: 0.0.0.0
  gpu_memory_utilization: 0.6
  max_model_len: 262144
  max_num_batched_tokens: 32768

env:
  VLLM_MARLIN_USE_ATOMIC_ADD: 1

command: |
  vllm serve /models/Qwen3.6-35B-A3B-FP8 \
    --served-model-name qwen \
    --host {host} \
    --port {port} \
    --max-model-len {max_model_len} \
    --max-num-batched-tokens {max_num_batched_tokens} \
    --gpu-memory-utilization {gpu_memory_utilization} \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --reasoning-parser qwen3 \
    --default-chat-template-kwargs '{{"preserve_thinking": true}}' \
    --load-format fastsafetensors \
    --override-generation-config '{{"temperature": 0.6, "top_p": 0.95, "top_k": 20, "presence_penalty": 0.1, "repetition_penalty": 1.05}}' \
    --speculative-config '{{"method":"mtp","num_speculative_tokens":3}}' \
    --attention-backend flashinfer \
    --enable-prefix-caching \
    --enable-chunked-prefill

4. 가상 환경을 만듭니다. (sh파일로 만들면 편함)

#!/usr/bin/env bash
tmux has-session -t vllm 2>/dev/null
if [ $? -eq 0 ]; then
  tmux attach -t vllm
else
  tmux new -s vllm
fi

5. 실행합니다. (sh 파일로 만들면 편함)

#!/usr/bin/env bash
cd ~/spark-vllm-docker || exit 1

./run-recipe.sh qwen3.6-35b-a3b-fp8 \
  --solo \
  --setup \
  -t vllm-node-tf5

사용하는 vscode 나 커서,오픈코드에 모델 입력해서 사용 하면 됩니다.

저두 간단한게 좋아서, 최대한 편하게 설치하는 방법으로 글을 써 보았습니다.

피드백은 언제나 감사합니다. ^^

AI당

강좌 DGX Spark 에서 쉽게 Qwen3.6 35B-A3B FP8 서빙

1. 모델을 다운받습니다.

2. DGX Spark eugr vLLM 을 다운/설치합니다.

3.모델 프로필을 만듭니다.

4. 가상 환경을 만듭니다. (sh파일로 만들면 편함)

5. 실행합니다. (sh 파일로 만들면 편함)