DGX Spark 한 대 더 들였습니다 : 클리앙

Gemma 4 발표 다음 날, ASUS GX10을 구입했습니다.

Gemma 4 패밀리 중에서 31B Dense 모델의 답변 품질이 좋아서 주력으로 사용하려 했는데, 속도가 너무 느렸습니다 (Ollama 기준 9~10 tok/s 정도). 제가 타자를 치는 속도보다 느린 수준이라, 실사용 가능한 수준인 최소 20 tok/s를 만들기 위해 할 수 있는 건 다 해봤지만(llama.cpp, vLLM 등 추론 엔진 교체, 양자화 변경, 레시피 수정 등등...) 속도 증가에는 실패했습니다.

그러던 중 엊그제 구글에서 MTP 적용이 가능한 Assistant를 발표했습니다. 기존의 속도 문제를 해결하기 위해 3배 가까이 속도를 높일 수 있는 방식이라고 하더군요. 작은 모델로 토큰을 여러 개 던지면(4~5개 정도가 스윗스팟이라고 합니다), 메인 모델이 그중 적합한 토큰을 고르는 방식입니다.

직접 적용해 보니 26~28 tok/s가 나옵니다. 속도 3배 증가가 과장이 아니었어요. 메모리 대역폭 때문에 Dense 모델에서 20 tok/s를 넘기는 건 불가능하다고 생각했는데, 신세계를 만난 기분입니다.

DGX Spark의 가능성을 확인하고, 내친 김에 한 대 더 들였습니다. 클러스터링으로 더 큰 모델을 돌리거나, 두 대에 각각 다른 모델을 올려 속도 저하 없이 병렬로 운용하고, 추론과 학습을 나누어 운영하는 등 응용 방법이 많을 것 같습니다. open webUI에서 두 모델 동시에 띄워서 한 프롬프트로 동시에 답변하게 한 후 답변 merge 하는 기능이 정말 마음에 듭니다. 이런 기능이 오픈소스라니 정말 대단합니다. tailscale 이용하면 휴대폰이나 노트북으로 외부 환경에서도 이용가능하고요.

GX10 구입 당시에는 GX10이 가장 저렴했으나 지금은 가격이 많이 올라서, 이번에는 Gigabyte AI Top Atom으로 구매했습니다. 해외 리뷰에서는 GB10(DGX Spark) oem 중 Acer 다음으로 평이 좋더라고요(사실 이 계열 기기들은 다 거기서 거기입니다). 국내 인지도가 낮아서 그런지 가격도 상대적으로 합리적이고 3년 AS가 기본으로 제공됩니다 (ASUS는 기본 1년에 추가 구매 방식).

Gemma 26B 모델도 훌륭하고, Qwen 3.6도 잘 나와서 굳이 31B Dense를 고집할 필요는 없지만, 어쨌든 실사용 가능한 수준으로 굴러가니 아주 뿌듯합니다. 참고로 구글 가이드는 gpu utilization을 90%로 잡아서 메모리를 121기가 정도 먹습니다. 컨텍스트 길이, gpu utilization 값을 조절해서 적정 메모리 사용량을 맞춰야 합니다.(현재 제 설정: max_model_len:65536, gpu_memory_utilization: 0.50, max_num_seqs:1, num_speculative_tokens: 4)

대기 전력은 2기에 각각 모델 로드만 한 상태에서는 75와트, 두 기기기 모두 추론시키면 대략 250와트 정도 나옵니다. (맥계열 만큼은 아니지만 전력효율이 상당히 좋습니다) 소음은 거의 없고, 온도는 일반적인 상황에서는 뒷부분이 살짝 따뜻해지는 정도. 빡세게 돌리면 상당히 뜨거워지긴 합니다.)

IMG_2596 중간.jpeg

IMG_2595 중간.jpeg

스크린샷 2026-05-08 오전 2.08.37 중간.jpeg

모두의공원

DGX Spark 한 대 더 들였습니다 21