CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·아이포니앙 ·주식한당 ·MaClien ·방탄소년당 ·일본산당 ·소시당 ·개발한당 ·자전거당 ·이륜차당 ·AI당 ·안드로메당 ·골프당 ·소셜게임한당 ·패스오브엑자일당 ·나스당 ·바다건너당 ·곰돌이당 ·가상화폐당 ·콘솔한당 ·클다방 ·걸그룹당 ·키보드당 ·리눅서당 ·물고기당 ·전기자전거당 ·노젓는당 ·사과시계당 ·퐁당퐁당 ·디아블로당 ·찰칵찍당 ·라즈베리파이당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·육아당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·젬워한당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·IoT당 ·KARA당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·영화본당 ·MTG한당 ·소리당 ·노키앙 ·적는당 ·방송한당 ·PC튜닝한당 ·그림그린당 ·소풍간당 ·심는당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·축구당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·여행을떠난당 ·터치패드당 ·트윗당 ·창업한당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당 ·윈폰이당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

DGX Spark 한 대 더 들였습니다 21

5
2026-05-08 02:13:14 수정일 : 2026-05-08 02:33:08 121.♡.186.216
하루세끼

Gemma 4 발표 다음 날, ASUS GX10을 구입했습니다. 


Gemma 4 패밀리 중에서 31B Dense 모델의 답변 품질이 좋아서 주력으로 사용하려 했는데, 속도가 너무 느렸습니다 (Ollama 기준 9~10 tok/s 정도). 제가 타자를 치는 속도보다 느린 수준이라, 실사용 가능한 수준인 최소 20 tok/s를 만들기 위해 할 수 있는 건 다 해봤지만(llama.cpp, vLLM 등 추론 엔진 교체, 양자화 변경, 레시피 수정 등등...) 속도 증가에는 실패했습니다.

그러던 중 엊그제 구글에서 MTP 적용이 가능한 Assistant를 발표했습니다. 기존의 속도 문제를 해결하기 위해 3배 가까이 속도를 높일 수 있는 방식이라고 하더군요. 작은 모델로 토큰을 여러 개 던지면(4~5개 정도가 스윗스팟이라고 합니다), 메인 모델이 그중 적합한 토큰을 고르는 방식입니다. 

직접 적용해 보니 26~28 tok/s가 나옵니다. 속도 3배 증가가 과장이 아니었어요. 메모리 대역폭 때문에 Dense 모델에서 20 tok/s를 넘기는 건 불가능하다고 생각했는데, 신세계를 만난 기분입니다.

DGX Spark의 가능성을 확인하고, 내친 김에 한 대 더 들였습니다. 클러스터링으로 더 큰 모델을 돌리거나, 두 대에 각각 다른 모델을 올려 속도 저하 없이 병렬로 운용하고, 추론과 학습을 나누어 운영하는 등 응용 방법이 많을 것 같습니다. open webUI에서 두 모델 동시에 띄워서 한 프롬프트로 동시에 답변하게 한 후 답변 merge 하는 기능이 정말 마음에 듭니다. 이런 기능이 오픈소스라니 정말 대단합니다. tailscale 이용하면 휴대폰이나 노트북으로 외부 환경에서도 이용가능하고요. 

GX10 구입 당시에는 GX10이 가장 저렴했으나 지금은 가격이 많이 올라서, 이번에는 Gigabyte AI Top Atom으로 구매했습니다. 해외 리뷰에서는 GB10(DGX Spark) oem 중 Acer 다음으로 평이 좋더라고요(사실 이 계열 기기들은 다 거기서 거기입니다). 국내 인지도가 낮아서 그런지 가격도 상대적으로 합리적이고 3년 AS가 기본으로 제공됩니다 (ASUS는 기본 1년에 추가 구매 방식).

Gemma 26B 모델도 훌륭하고, Qwen 3.6도 잘 나와서 굳이 31B Dense를 고집할 필요는 없지만, 어쨌든 실사용 가능한 수준으로 굴러가니 아주 뿌듯합니다. 참고로 구글 가이드는 gpu utilization을 90%로 잡아서 메모리를 121기가 정도 먹습니다. 컨텍스트 길이, gpu utilization 값을 조절해서 적정 메모리 사용량을 맞춰야 합니다.(현재 제 설정: max_model_len:65536, gpu_memory_utilization: 0.50, max_num_seqs:1, num_speculative_tokens: 4)

 대기 전력은 2기에 각각 모델 로드만 한 상태에서는 75와트, 두 기기기 모두 추론시키면 대략 250와트 정도 나옵니다. (맥계열 만큼은 아니지만 전력효율이 상당히 좋습니다) 소음은 거의 없고, 온도는 일반적인 상황에서는 뒷부분이 살짝 따뜻해지는 정도. 빡세게 돌리면 상당히 뜨거워지긴 합니다.) 

IMG_2596 중간.jpeg


IMG_2595 중간.jpeg


스크린샷 2026-05-08 오전 2.08.37 중간.jpeg


하루세끼 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [21]
외국인노동자2025
IP 45.♡.141.195
05-08 2026-05-08 02:19:26
·
MTP는 정말 신 맞습니다. FP8에서 12 token 나와주면 정말 고맙죠….ㅠㅠ
부산행
IP 66.♡.134.231
05-08 2026-05-08 02:32:49
·
와... 부럽습니다. 한 대라고 있고 싶다고 장바구니에만 담았던 것을...
여러가지 알아보더라도 아직은 아닌 것 같다는 의심이 들고... 끌로드 맥스 1년 끊는게 더 낫지 않을까 싶기도 하구요. 정말 실사용 궁금한 제품들 입니다.
하루세끼
IP 121.♡.186.216
05-08 2026-05-08 02:35:17
·
@부산행님 저도 프런티어 모델들도 다 쓰는데 지피티, 끌로드가 좋기는 좋습니다. 그런데 끌로드는 주력으로 쓰는 것도 아닌데 사용량 너무 금방 끝나요.
귤껍
IP 211.♡.170.193
05-08 2026-05-08 04:36:31
·
저는 코딩용으로 spark 생각하다가 너무 느리고 양자화 모델의 답변 품질이 안좋은것같아 포기했거든요. 두대 케이블연결이 맥스로 알고있는데.. mtp적용하게 되면 프런티어 모델 대비 어느정도 품질일까요?
하루세끼
IP 121.♡.186.216
05-08 2026-05-08 07:02:20
·
@귤껍님 품질 속도는 당연히 지피티 클로드 최신 모델들이 압도적으로 좋지만 qwen 3.6이나 gemma4 세팅 잘하면 충분히 역할 할 정도는 될 거에요. 초안이나 쉬운 과제는 로컬 모델 돌리고 검증이나 어려운 문제는 프런티어에게 맡기는 식으로 운영하면 토큰을 경제적으로 쓸 수 있을 것 같습니다. AI 구독료가 지금보다 더 오를 테니까요. 지피티기 클로드 대비 혜자이긴한테 mau 확보하려고 손해보는 장사하고 있거든요.
귤껍
IP 211.♡.170.193
05-08 2026-05-08 07:53:52
·
@하루세끼님 음...앞으로 구독료가 오른다고 생각하면 그렇겠네요....혹시 세팅값이나 사용모델 등은 어디에서 참고하면 될까요?
유스튜
IP 121.♡.43.61
05-08 2026-05-08 05:29:48
·
클로드맥스 1년 360만원..
이제 dgx가 가성비 구간으로 가는 분기가 되겠네요
하루세끼
IP 121.♡.186.216
05-08 2026-05-08 07:03:36
·
@유스튜님 별로 쓰지도 않았는데 일긴 자주 끊기거 주간 사용량 금방 차더라고요.
예리남편
IP 149.♡.98.170
05-08 2026-05-08 08:07:13
·
@유스튜님 클로드랑 품질 비교가 되나요? 궁금합니다.
유스튜
IP 221.♡.2.209
05-08 2026-05-08 08:21:30
·
@예리남편님 코딩은 아직은 클로드랑 코덱스가 뛰어나겠지만, 오픈클로와 같은 에이전트를 굴리는 기본적인 활용은 되지않을까 싶어요.
저도 오픈클로를 코덱스연동해서 사용중이라, 비교가 되지않지만 저도 다음달에 들어가는 프로젝트에는 DGX를 구해 사용해볼 예정입니다. (당근에 DGX가 자주 보이더라구요. 아직은 700만원대에...)
예리남편
IP 149.♡.98.170
05-08 2026-05-08 08:32:08
·
@유스튜님 근데 오픈클로 같은 에이전트는 사실 라이트 모델로 돌려도 된다는 말씀이신데, 오히려 그러면 클로드 맥스 말고 라이트한 모델 api 걸어놓으면 얼마 안나오지 않을까요?
로컬 저도 도입해 보려는데 그냥 취미용도 아니고서야는 roi가 안나오는거 같더라고요.
유스튜
IP 221.♡.2.209
05-08 2026-05-08 09:11:19
·
@예리남편님 메인은 코덱스를 써야 합니다. 다만 직원들이나 외부에 사용하는 용도는 라이트 모델로 되지 않을까 싶어서요 ㅎ
시민케이
IP 39.♡.188.155
05-08 2026-05-08 05:36:58
·
DGX Spark 사놓고 로컬 성능이 안 나와 맥미니만 쓰고 있었는데… 한번 돌려봐야겠습니다.
어떤 환경으로 셋업하시는지 궁금해지네요.
하루세끼
IP 121.♡.186.216
05-08 2026-05-08 07:07:04
·
@시민케이님 gemma4 mtp 설치 ai항테 물어보면 알려 줄 텐데요. Bf16 말고 int4-autoround 버전으로 해보세요. mtp는 그대로 쓰셔도 됩니다. 나머지 설정값들은 돌아가는 거 보면서 조절하시면 됩니다. tailscale까지 설치하시면 외부에서 클라우드로도 쓸수있어요. 꽤 빨라요.
귤껍
IP 211.♡.170.193
05-08 2026-05-08 07:54:38
·
@하루세끼님 여기에 참조값 적어주셨네요! 감사합니다
겜광사랑
IP 1.♡.249.185
05-08 2026-05-08 06:35:54
·
저는 한대에는 메인 에이전트용으로 QWEN3.6 35B A3B, 한대에는 코딩용으로 QWEN3 CODER NEXT 올려 쓰다가 그냥 지금은 다 접고 코덱스 구독하고, 대신에 오만가지 잡모델들(ASR, 임베딩 등) 유틸리티성 배치용으로 쓰고 있는데 이거 의외로 또 쏠쏠합니다. 아무리 대역폭이 느려도 실시간 번역기도 커버되고, 오픈클로랑 대화내용 모두 임베딩해서 조사시켰던 내용 절대 컨텍스트 저너머로 날아가지 않게 해뒀네요. ㅎㅎ
eothd
IP 121.♡.161.48
05-08 2026-05-08 07:25:53
·
혹시 집에서 개인사업 하시나요? 아님 회사 이야기인가요?
하루세끼
IP 121.♡.186.216
05-08 2026-05-08 13:29:32
·
@eothd님 아직까지는 개인 프로젝트인데 곧 현장 투입 가능해지길 희망하는 단계에요. 투자금은 회수 못할 것 같아요.
에일리언
IP 92.♡.186.150
05-08 2026-05-08 08:22:38
·
유튭 중에 보니까... 이건 느린 머신이 아닌데 사람들이 잘못쓰고 있다면서 인스턴스 병렬 기동 쭉하면서 결과모아 빠른 답변을 얻어내는 걸 보여주던게 있는거 같습니다
pluto248
IP 218.♡.198.187
05-08 2026-05-08 10:13:40
·
M5 Pro의 MLX 최적화 모델도 대안이 될 수 있지 않을까요?
아직 맥미니가 m5 pro 모델이 안나오긴 했는데 m5 pro의 뉴럴 액설레이터 추가로 꽤 성능이 올라가서 맥미니 m5 pro 모델이 나오면 64기가 정도로 local llm 용도로 한번 구입을 해볼까 고민중입니다.
하루세끼
IP 121.♡.186.216
05-08 2026-05-08 13:26:38
·
@pluto248님 맥미니 m5pro 정도면 MLX로 왠만한 모댈들 쾌적하게 돌아갈 것 같아요. 다만 출시가 늦어진다는 말도 있고 가격이 오른다는 말도 있고 wwdc 보면 알겠죠. Ceo도 바뀌었는데 큰거 한방 내놓지 않을까요.
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.