※ 개인적인 견해이고 비전문가이므로 당연히 내용이 틀릴 수 있습니다.
며칠동안 오픈클로를 써보고 낸 결론은 일단 이 한 줄입니다.
- 내 문맥대로 스크립트를 AI한테 시켜서 짜주는 기능
흐름으로 좀 표현해보자면
사용자가 지시 → 오픈클로가 AI한테 전달 → AI가 해석 후 오픈클로한테 다시 전달 → AI한테 전달 받은 내용을 바탕으로 오픈클로는 이러이러한 식으로 스크립트를 짜야할거같아 라고 AI한테 지시 → AI가 스크립트 작성 후 사용자 지시 내용을 수행 → 결과값을 AI가 오픈클로한테 보냄 → 오픈클로가 사용자한테 보고
즉, AI는 크게 두 가지 목적으로 쓰인다는 느낌입니다.
1. 사용자의 지시를 오픈클로가 이해하는데 도와줌
2. 사용자의 지시를 이해한 오픈클로가 다시 AI한테 지시한 내용을 AI가 스크립트로 짜줌
다시 말하자면 AI는 말을 잘해야하고 스크립트를 잘 짜야 한다.. 정도로 저는 느끼고 있습니다.
그런데 사람이라도 말빨이 천차만별이고 개발자라도 코딩 능력이 천차만별이잖아요. AI도 동일하게 적용되는 느낌입니다.
1. 사용하는 외부 AI 모델들
우선 저는 깃허브 코파일럿으로 $10짜리를 결제했고 이중에서 그록, GPT 4.1, GPT 4o. GPT 5 미니 등은 무제한으로 사용, 제미나이 3 프로 프리뷰는 사용량 차감이 되는 요금제도 위 모델들을 돌려봤고요
일단 제가 쓰는 용도에서 가장 말 잘 듣는 건 제미나이 3 프로 프리뷰입니다.
내일 오전 11시 30분에 점심약속을 맥 캘린더에 넣어줘. 캘린더는 개인 캘린더로 넣어주면 되.
라고 텔레로 일 하나 던져주면,
- 제미나이 3 프로 프리뷰: 개인 캘린더로 내일 오전 11시 30분 점심약속 이라고 반영
- GPT-4o / GPT 4.1 / 그록: 내일 00:00에 점심약속 이라고 반영
의 차이점이 있더군요.
시간이 잘못되서 자꾸 시간 수정 요청을 해도 세개는 못 알아먹던데 그나마 그록은 전체 일정 보여달라니 자기가 시간을 잘못 넣었음을 인지하고 뒤늦게 수정하긴 했지만 어쨌든…
그리고 GPT-5-미니는 접근권한이 없다면서 배쨌던걸로 기억합니다.
아무튼, 제가 일정 넣으라고 말하면 맥 캘린더 실행시키고 일정 넣는 걸 스크립트 짜준다고 생각하면 되고 AI 모델들마다 스크립트 짜는 방식도, 내부 최적화 같은 것들도 각기 제각각인것 같습니다. 즉, GPT-5-미니는 스크립트 짜는 방법을 거의 모르는 느낌입니다.
2. 그런데 좀 재미있는 부분
제미나이가 여기서 또 강점이 있는데 뭔가 스크립트가 잘 안짜지면 제가 수동으로 작업하라거나 내 생각은 이럴 거 같아서 이렇게 해봤는데 잘 안 되네. 더 좋은 방법 알고 있어? 혹은 다른 방법으로 시도해볼게 등. 지 나름대로 최적화를 시도하려고 할 때가 있더군요.
3. 로컬 LLM은 외부 AI 대비 어느 수준일까?
그렇다면 로컬 LLM들은 어떤 수준일까요? 일단 LLM을 돌리는 최소사양도 못 미치지만 취미로 돌려보기엔 최대치에 가까운 맥미니 M4 기본형에 램만 32GB로 올려서 샀습니다.
언어 모델은 GPT-OSS:20b, qwen3 계열의 30b 들을 돌려봤는데요..
안녕? 이란 말에 대답을 듣기까지 빠르면 1분, 느리면 몇 분의 시간이 소요됩니다…..
그리고 파일작업 할 수 있어? 라고 물어보면 이유는 모르겠는데 몇 분 있다가 커넥션 타임 아웃이 뜨던가 짜다만 스크립트 던져주고 끝나기도 합니다.
그 밖에 안녕?은 한글로 답했다가 너는 무슨 모델이야? 라고 물어보면 영어로 답하기도 하고 (이건 grok도 그런 경향이..) 휴지통 비워달라고 하면 메시지를 성공적으로 보냈다는 등(…) 온라인 AI가 성인 수준이라면 로컬 LLM은 유치원 수준도 안 되는 저지능이어서 로컬 LLM으로 오픈클로를 돌려보겠다 뭐 이런 생각은 포기하시는 게 좋을듯 합니다.
즉, 32GB 맥미니 M4에서 로컬 LLM을 통해 오픈클로를 돌릴려면 문맥 다듬기 같은 것들만 가능하다… 근데 이런거 할려면 그냥 챗GPT나 구글 제미나이같은데서 하는 게 훨씬 더 빠르다 가 되겠고요,
스크립트를 통해 맥 내부에서 작업하기엔 로컬 LLM들이 스크립트도 모르고, 스크립트를 어떻게 짜야할지도 몰라서 그냥 바보라 생각하면 됩니다. (온라인 AI 중에선 GPT-5-미니가 좀 유사합니다. 4o나 4.1에선 무리없이 하는 걸 5-미니는 권한 없다고 배째는 경우가 많음)
번외 1: 맥 기준에서 점프데스크탑은 필수
외부 AI용 오픈클로는 집에 M1 맥미니에 돌리고 있는데 특히 첫 실행 동안은 오픈클로가 작업할려면 맥OS에서 사용자한테 권한 사용 여부를 물어볼 때가 많아서 한동안은 점프데스크탑 열고 권한 물어볼 때마다 일일이 사용자가 허가를 해줘야 합니다.)
번외 2: 그록은 가급적 지양
갑자기 폭주하면서 에러메시리를 수백개 이상 보낼 때가 있습니다. 해결방법은 터미널에서 게이트웨이 리스타트.. 위에도 잠깐 언급했는데 일정 넣으라고 했지만 제가 말한 시간으로 일정을 넣지 않은건 그록이나 gpt나 마찬가진데 그 날 일정 전체 보여달라고 할 때 그록은 지가 넣은 일정의 시간이 잘못됨을 깨닫고 그록은 일정 시간을 수정한 후 그 날의 전체 일정을 보여주더군요.
근데 하루에 3~4번씩 폭주하며 텔레로 메시지 수백개를 십수초만에 쏟아내는 경험을 하고 나면 일단 그록은 좀…
번외 3: 텔레그램 상에서 언어 모델 변경도 가능
잘 안 될 때도 있는데 제미나이 3 프로 프리뷰 <-> gpt 4.1을 텔레그램 상에서 바꿔달라고 하면서 왔다갔다 하며 씁니다.
번외 4: 제미나이를 기준으로 했을 때, 제미나이는 사람으로 치면?
개인적인 느낌으론 일반 성인하고 대화하는 느낌입니다. 아래는 (아마도) 제미나이의 답변입니다.
——————
정리하면, 새벽 4시 30분에 반복할 작업은 아래와 같아:
1. /Volumes/1TB SSD Y/DS120j Recording/R/ 폴더 내 전날짜 폴더(YYYY-MM-DD 형식) 진입
2. sm 확장자(*.sm) 파일 모두 삭제
3. ts 확장자(*.ts) 파일 중
→ 이름이 유사한(중복) 파일이 있으면 가장 큰 용량의 파일만 남기고 나머지는 삭제
4. 남은 ts 파일 전부 /Volumes/1TB SSD Y/SynologyDrive/ 폴더로 이동
5. (필요시 완료 알림)
이렇게 맞지?
작업 예약 걸기 전에 아래 사항만 짧게 확인해줘:
• "유사한 이름(중복)"의 기준: 예시 파일명 2~3개만 알려주면 더 정확하게 필터 가능!
• 완료 알림(텔레그램 등)도 받을지?
바로 예약 적용할 준비 되어 있어!
확인 후 진행할게!
—————————
제가 자동화 조건을 좀 추상적으로 말하니 예를 들어 구체적으로 알려주면 좋겠다라는 내용은 감탄이 나오더군요.
그리고 아마도 텔레그램 창이 하나의 세션으로 활성화되어 있고 이 세션이 종료되지 않는 한 내가 어떤 작업을 하는지 기억을 하는데 이것도 단기 기억이 있고 장기 기억이 있고 제가 뭐 기억하라고 시키진 않았지만 주인놈이 나한테 이런 작업 같은거 많이 시킨다 이런 것들은 지 나름대로 캐치해서 알더군요.
번외 5: 제가 오픈클로를 쓰는 용도
일단 텔레로 주고받는다는 게 편하고.. 제일 많이 쓰는 작업은 파일작업인데, 맥북, 맥미니, 윈도우 PC 등등 장소마다 다른 컴터들을 쓰고 있고 NAS로 시놀로지 드라이브 동기화 걸어놓고 모두 동기화 시키는데 며칠 지나면 자동으로 비동기화 NAS 폴더로 보내는 식의 자동화를 일단 제일 많이 쓰고,
조금씩 조금씩 일을 더 시켜가며, 오픈클로를 학습시키고 저도 이놈이 어떻게 돌아가는지를 이해할수록 이 녀석을 더 잘 쓸 것 같습니다 ㄷㄷㄷ 테스트삼아 헤 본 건 일정 추가, 미리알림 추가, 메모 추가 등등입니다. 웹의 경우 크롬 익스텐션 쓰면 간단한 접근은 가능한데 이것도 언어 모델마다 크롬 접근 방법이 제각각이더군요.
그 밑에 모델로 가는게 낫지 않을까 합니다.
openclaw 는 안써봐서모르지만 lm studio 내에선 맥미니 M4Pro 64GB 로 사용하는데 꽤나 빠르게 응답합니다.
둘다 타이핑 까지 다 끝나는데 체감 약 3초? 수준입니다.
openclaw 에이전트 여럿 추가해서 쓰는데도 max플랜 사용량이 널널합니다
받을 때 까지 뭘 시킬지 고민을 좀 해봐야겠네요
따라서 기동 후 맨 처음 아이들링 메시지를 보낼 때 한 번 만 CTX값을 넣어서 송신하고 이후에는 base_ctx=None으로 호출해야 합니다만, 별로 안내가 되지 않아서 많은 분들이 동적 제어로 리셋을 반복하면서 그 원인 분석에 며칠 씩 고생하는 경우가 많습니다.
또 Qwen3 은 다국어 데이터셋 비율이 좋지 않아서 영어와 중국어 외의 언어로 이용하는 것은 무리가 있습니다.
게다가 특정 문장이나 명령어를 주면 그것을 자신의 발언으로 혼동하여 이어서 동작하는 등의 불안정한 동작이나, 답변 무한 루프 등도 심해서 별도의 추가학습을 시키지 않는 한, 오픈클로와 같은 범용 용도로 중요한 미션을 주기에는 부적합한 모델입니다.
단순 퍼포먼스만으로 보면 우수한데, Qwen3 30B는 3090 에 기본 세팅만 해도 70tok/s, 최적화가 잘 되면 동일 하드웨에에서 200tok/s까지도 나옵니다. 맥 MAX에서 돌려도 30~40tok/s 정도가 나와서 일반적 사용에는 무리가 없습니다.
저: 파일관리 할 수 있어?
오: 파일관리 못해요. 텍스트 요약 이런 건 가능해요.
근데 저 두 문장 주고받는데도 분 단위가 걸려서 뭔가 오픈클로가 이해하는 방향을 말한다는 게 불가능하더군요.
지금 GPT 4.1 물려 쓰는 경우
나: 특정 폴더에서 맥용 사진앱에 임포트 시킨 후 자동보정 걸고 JPG로 다시 추출할 수 있어?
오: 자동보정 거는 건 수동으로 하셔야 할 거 같은데요
나: CMD + A, CMD + E 쓰면 될 거 같은데?
오: 되겠네요. 스크립트와 오토메이트 조합해서 짜볼께요.
이런 형태로 대화의 흐름이 최대 수초 정도의 딜레이를 두고 이어집니다
5.2 이상에서는 해당부의 트리거를 풀어주냐 마냐의 정책에 의해 더 알아서 돌아갈 수 있는 사실상의 AGI 단계를 정책으로 막아뒀다고 보여지고요...
클로드는 쏘넷, 오퍼스 모두 토큰을 미친듯 먹기 때문에 오픈클로에 api로 열어주면 한 달 수백만원도 가뿐하게 나오고, 제미나이3 pro 프리뷰도 GPT5.2에 비하면 3~8배 가량의 토큰을 소모하고 환각이 심하므로 주의가 필요합니다.
GPT5 이상을 쓰면 비용과 환각 측면에서 안심할 수 있지만, 업무 목적이 아닌 취미라면 역시나 좀 부담은 되실 겁니다.
메신저 연동
로컬 리소스 억세스
두 가지라 생각되네요. 단순 LLM만 이용할려면 AI 앱을 써도 되는데 일단 텔레그램을 통해 사람 시키듯이 시키고 피드백을 받는 과정 자체가 너무 마음에 드는데 갤럭시에서 전원 버튼 길게 누르는 제미나이와 비교하면
일정 추가 (여기까진 갤럭시 / 오픈클로 모두 잘 해줍니다)
그런데 추가된 일정을 수정하려면 갤럭시는 뭐가 안되고 뭐가 안되고 해서 실질적으로 유저가 일정앱 열고 수정해줘야 하는데 오픈클로는 텔레로 장소 추가해줘 메모 넣어줘 이런 걸 다 메신저로 시키고 반영해주는 차이점이 있죠.
그리고 이런 과정으로 만들어내는 결과값이 스크립트 + 파이썬 + 오토메이트를 적절히 섞어서 에이전트가 맥을 제어하는 것들이라 우선 제가 쓰는 범위에서는 파일관리나 맥의 기본 앱들을 제어하는 기능들 위주로 쓰고 있습니다 ㄷㄷ
그것보다 더 상위의 문서가 시스템에서 수시로 내려주는 시스템메시지로 기본 동작과 보안 등에 대한 지시+ 보안 이슈 감지시 추가 주의문 같은 것들이라 사용자가 건드릴 수 없는 부분입니다.
16기가 주문하고 대기중인 상태인데 두 모델 비교하면 어떤지 궁금합니다.
32에서 로컬 돌리는 의미(?)가 실제로 있을까요
단순히 16GB와 32GB에서의 차이라면 16GB에서는 30B정도 사이즈를 못 돌리고, 32GB에서는 Qwen3 30B 4bit 양자화 모델을 돌릴 수 있다는 차이가 있습니다.
32G에서 의미있는 로컬 LLM의 속도나 품질이 나오는지가 궁금해서 여쭤봤어요. 그렇다면 외부 api 의존도가 확실히 줄테니까요.
발표되는 모든 온디바이스 LLM 들은 기본이 채팅모델이라 언어 데이터셋이 대부분이기 때문에 (원하는 동작을 위한) 품질은 추가 학습이 수반되어야 합니다.
동일한 고민 동일한 경험 하신 듯합니다.
저도 openclaw 때문에 M4 기본형 32GiB 모델을 구입하였는데, ollama와 openclaw의 반응이 너무 차이나서 괴리감을 상당히 느끼고 있습니다.
아직 배송 받은지 2주가 지나지 않아, 성능적 실망감에 반품해야 되나 고민 중 이 글을 보게 되었네요..
다른 분들의 댓글에서 HW 성능 차이점과 아직 모델의 한계로 인해 응답이 느린 것으로 이해되지만, 그 차이가 너무 큰게 문제입니다.
아마도 이 부분이 개선되려면 상당한(?) 시간이 필요하지 않을까 생각합니다.
그래서 더더욱 VM(KVM기반) openclaw + 구독형 LLM(제미나이프로)이 더 나은 선택이란 생각이 들기도 하구요.
하지만 앞으로 몇년간 메모리 가격이 내릴 기미가 없을 것 같아 그냥 놔 둘까 싶기도 합니다. 하지만 너무 배부른 고민인 것 같네요 .
그냥 맥미니 깡통에 API key 쓰라고 하더라고요.
저도 그냥 램 많은(...) 맥미니로 쓰고 있습니다 ㅋㅋㅋㅋㅋㅋ
간단한 문답정도는 가능할수도 있겠는데..
아, 그리고 저는 카카오 대란으로 구입한 챗GPT 프로의 Oauth 연동으로 GPT 5.3 코덱스로 돌리고 있습니다.
아무튼 오픈클로를 이제 막 신입사원이라 생각하고 알려주면 될 거 같습니다.
처음엔 못하는데 다른 방법을 찾아볼까요? 하고 물어봅니다. 한 번 해보라고 하면 이런 저런 방법을 찾아내서 과거엔 못하던 거를 할 수 있게 되고 이런식으로 계속 쓰다보면 오픈클로가 할 수 있는 일들이 점점 많아집니다.
이걸 로컬 LLM은 현 시점에선 32GB 램 기준에선 100% 무리라고 생각합니다.
지금 제 오픈클로는 지가 브라우저 열어서 장바구니 다 쟁여두고 맥용 캘린더 같은 것들 스크립트로 일정 관리해주고 그러거든요. 브라우저 열고 실행하는것도 때때로 오픈클로가 막힐 때가 있는데 이럴 땐 제가 스크린샷으로 오픈클로가 막힌 부분 알려주면서 해결해주고 이러면서 지내고 있습니다 ㄷㄷㄷ
하지만 다른 경험으로 인해 다를 수도 있겠다는 생각이 들어서 ...
전, v100 16gb과 rtx3070(8GB)를 win11에 연결해서 동작시키고 있습니다. gpt-oss:20b에 32K 컨텍스트로 다시 만들긴 했지만 (ollama배포내용임) 차이는 없을 겁니다.
여기서 vm으로 windows에서 설치했는데 어떨 때는 답변이 되는 것 같은데 잘 안되더군요. 그래서 이게 안되나 하는생각에 그냥 모델이 작은 모델이래도 추론만 잘하면 하루가 걸려도 된다는 생각에 어제밤부터 오래된 CPU사용하는 나스에 3B/4B모델 중 tools를 지원하는 모델을 올려서 테스트를 해봤는데 fetch failed로 답이 안와서 포기하다 기왕 만든 거, PC의 ollama와 연동해서 해봐야겠다고 생각해서 삽질을 좀 했는데.
이게 동일한 모델인데도 답이 너무 빠르게 잘 나오는 겁니다. 물론 기본적으로는 날씨 , 또는 web_fetch만 하는데. 안녕이란 질문에, 20s정도는 걸리긴 하네요..
그럼에도 불구하고, 출력결과는 제법 말은 통하는 것 같긴 합니다. 결국 답을 잘 못가지고 오는건 API가 없어서 검색을 못하고 방법만 알려줘서, headless browser를 docker에서 써볼려고 고민 중인데.
PC를 켜놓아야 하는 현실과 (16G+8G에 20B정도는 올릴 수 있더군요 다 GPU로) 소음(v100의 팬소리가..ㅠ.ㅠ 아직 최적화는 안되어 있어서) .. 간단한 비서정도로 브라우저만 공유하면 가능하지 않을까 라는 생각이 좀 듭니다. 검색을 브라우저로만 잘되면 일단 결과물을 분석하는게 할 수 있는데 이게 막혀서 아직 확신은 못하겠습니다. 좀 똘똘해지지 않을까 싶기도 하고.