Gemma 4 발표 다음 날, ASUS GX10을 구입했습니다.
Gemma 4 패밀리 중에서 31B Dense 모델의 답변 품질이 좋아서 주력으로 사용하려 했는데, 속도가 너무 느렸습니다 (Ollama 기준 9~10 tok/s 정도). 제가 타자를 치는 속도보다 느린 수준이라, 실사용 가능한 수준인 최소 20 tok/s를 만들기 위해 할 수 있는 건 다 해봤지만(llama.cpp, vLLM 등 추론 엔진 교체, 양자화 변경, 레시피 수정 등등...) 속도 증가에는 실패했습니다.
그러던 중 엊그제 구글에서 MTP 적용이 가능한 Assistant를 발표했습니다. 기존의 속도 문제를 해결하기 위해 3배 가까이 속도를 높일 수 있는 방식이라고 하더군요. 작은 모델로 토큰을 여러 개 던지면(4~5개 정도가 스윗스팟이라고 합니다), 메인 모델이 그중 적합한 토큰을 고르는 방식입니다.
직접 적용해 보니 26~28 tok/s가 나옵니다. 속도 3배 증가가 과장이 아니었어요. 메모리 대역폭 때문에 Dense 모델에서 20 tok/s를 넘기는 건 불가능하다고 생각했는데, 신세계를 만난 기분입니다.
DGX Spark의 가능성을 확인하고, 내친 김에 한 대 더 들였습니다. 클러스터링으로 더 큰 모델을 돌리거나, 두 대에 각각 다른 모델을 올려 속도 저하 없이 병렬로 운용하고, 추론과 학습을 나누어 운영하는 등 응용 방법이 많을 것 같습니다. open webUI에서 두 모델 동시에 띄워서 한 프롬프트로 동시에 답변하게 한 후 답변 merge 하는 기능이 정말 마음에 듭니다. 이런 기능이 오픈소스라니 정말 대단합니다. tailscale 이용하면 휴대폰이나 노트북으로 외부 환경에서도 이용가능하고요.
GX10 구입 당시에는 GX10이 가장 저렴했으나 지금은 가격이 많이 올라서, 이번에는 Gigabyte AI Top Atom으로 구매했습니다. 해외 리뷰에서는 GB10(DGX Spark) oem 중 Acer 다음으로 평이 좋더라고요(사실 이 계열 기기들은 다 거기서 거기입니다). 국내 인지도가 낮아서 그런지 가격도 상대적으로 합리적이고 3년 AS가 기본으로 제공됩니다 (ASUS는 기본 1년에 추가 구매 방식).
Gemma 26B 모델도 훌륭하고, Qwen 3.6도 잘 나와서 굳이 31B Dense를 고집할 필요는 없지만, 어쨌든 실사용 가능한 수준으로 굴러가니 아주 뿌듯합니다. 참고로 구글 가이드는 gpu utilization을 90%로 잡아서 메모리를 121기가 정도 먹습니다. 컨텍스트 길이, gpu utilization 값을 조절해서 적정 메모리 사용량을 맞춰야 합니다.(현재 제 설정: max_model_len:65536, gpu_memory_utilization: 0.50, max_num_seqs:1, num_speculative_tokens: 4)
대기 전력은 2기에 각각 모델 로드만 한 상태에서는 75와트, 두 기기기 모두 추론시키면 대략 250와트 정도 나옵니다. (맥계열 만큼은 아니지만 전력효율이 상당히 좋습니다) 소음은 거의 없고, 온도는 일반적인 상황에서는 뒷부분이 살짝 따뜻해지는 정도. 빡세게 돌리면 상당히 뜨거워지긴 합니다.)



여러가지 알아보더라도 아직은 아닌 것 같다는 의심이 들고... 끌로드 맥스 1년 끊는게 더 낫지 않을까 싶기도 하구요. 정말 실사용 궁금한 제품들 입니다.
이제 dgx가 가성비 구간으로 가는 분기가 되겠네요
저도 오픈클로를 코덱스연동해서 사용중이라, 비교가 되지않지만 저도 다음달에 들어가는 프로젝트에는 DGX를 구해 사용해볼 예정입니다. (당근에 DGX가 자주 보이더라구요. 아직은 700만원대에...)
로컬 저도 도입해 보려는데 그냥 취미용도 아니고서야는 roi가 안나오는거 같더라고요.
어떤 환경으로 셋업하시는지 궁금해지네요.
아직 맥미니가 m5 pro 모델이 안나오긴 했는데 m5 pro의 뉴럴 액설레이터 추가로 꽤 성능이 올라가서 맥미니 m5 pro 모델이 나오면 64기가 정도로 local llm 용도로 한번 구입을 해볼까 고민중입니다.