M4 기본형에 오픈클로 설치하고 4070 super 모델로 로컬LLM 돌렸을 때 tool calling 못하는 문제로 포기했는데요
맥미니 M4 32GB 모델로 로컬LLM 돌릴 수 있는지 궁금하네요.
7-8b 정도 모델은 tool calling 제대로 수행 못하는 것 같던데 로컬로 돌리시는분 계시는지 궁금합니다
M4 기본형에 오픈클로 설치하고 4070 super 모델로 로컬LLM 돌렸을 때 tool calling 못하는 문제로 포기했는데요
맥미니 M4 32GB 모델로 로컬LLM 돌릴 수 있는지 궁금하네요.
7-8b 정도 모델은 tool calling 제대로 수행 못하는 것 같던데 로컬로 돌리시는분 계시는지 궁금합니다
gpu는 VRAM 32GB만 되어도 로컬LLM 돌리기엔 충분한 것 같던데 512Ram 도 힘든건 충격이네요
그래서.. 아래처럼 구성해서 사용해 보려고 합니다.
local-fast = ollama/qwen3:8b
local-main = ollama/qwen3:30b
cloud-fast = openai/gpt-5-mini
cloud-strong = claue, openai, gemini
1차으로 로컬에서 처리해서 검수후 결과가 안 좋으면 핵심적인 내용으로 api를 통해 결과 도출하는 방식입니다.
잘 될지는 모르겠지만.. 현재 구축입니다.. ㅎㅎ
맥 지원하는 LLM도 있습니다.
MLX
Apple이 만든 Apple Silicon 최적화 ML 프레임워크입니다.
M칩 GPU/Unified Memory를 잘 써서 같은 모델도 더 효율적으로 돌리는 경우가 많습니다.
개발자 성향이 강하고, 커맨드라인/파이썬 기반으로 쓰는 편입니다.
LM Studio
로컬 LLM용 데스크톱 앱입니다.
모델 다운로드, 실행, 채팅, 서버 오픈까지 GUI로 쉽게 합니다.
초보자가 테스트하기 좋고, OpenAI 호환 API 서버처럼도 쓸 수 있습니다.
qwen2.5 14b 모델도 tool calling 이 잘 안되던데요..
그리고 32GB 에서 30b 모델이 돌아가려나요?
30b정도는 가능할거라 생각하고 구성하고 있기는 한데, 해 보고 말씀 드릴께요.
만일 안된다면 다른 방법을 찾아봐야죠.. ㅎㅎ
생각 이하네요.. 이정도 일줄은 몰랐습니다. ㅡ.ㅜ;
자세한 것은 https://www.clien.net/service/board/cm_app/19165593CLIEN 를 참조해 주세요..
30B 면 무거운걸로 시도하시긴 했네요..
저도 시도하다가 결국 24GB로 낮추고 차액으로 API 구독하려구요 ㅎ
툴콜링,한글 잘 되려면 QWEN3, GPT-OSS 모델 정도 되어야 하는데 하위은 툴콜링이 잘안되고 상위 모델은 하드웨어가 힘들어 합니다.
DGX SPARK (128GB) 로 해도 돌아가긴 하는데 당연하겠지만 상용 모델 대비 IQ(?)가 좀 부족하다는 느낌을 지우기가 어렵습니다. 뉴스 스크래핑, 요약 정도가 한계인 느낌입니다...
원하는 목표 해결하려면 이런 저런 비용 들어가느니 API로 사용하는게 속편하기는 하더라고요.
vllm-mlx 를 러너로 사용중이고
AI모델은 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit 를 사용중입니다.
openclaw 연동해서 이것저것 해보는데 응답이 느리지만 쓸만 합니다.
chatGPT 나 제미나이 API 직접연동하면 속도차이 많이 나는데 무료라는점에 만족합니다.
최적화하고 속도 뽑을라고 context 사이즈도 조절해보고 토큰 사이즈도 조절해보고 MLX 지원하는 러너로 돌리고 AI 모델도 이것저것 돌려보고 초반 정보 학습 하고나면 쓸만한거같용