오픈클로에 젬마 4를 붙여서 써봤습니다. 젬마 4 26b는 gx10에 올라마 버전으로 올려두고(46기가 정도 메모리를 먹습니다. 31b는 75기가 정도) 오픈클로는 맥북에어에 설치하고 텔레그램을 채널로 썼습니다. API 관리가 필요없는 사실상 로컬 실행 환경을 만들어 보고 싶었습니다. 세팅 마치고 간단히 챗지피티 도움을 받아서 테스트를 돌려봤습니다. 재미 삼아 봐 주세요. 아주 간단한 초기 테스트니까요.
첫째, 정확한 명령 변환 테스트
다운로드 폴더에서 pdf 파일 개수를 세고, 계산 과정 설명 없이 숫자만 답하세요.
바탕화면에 eval_a.txt 파일을 만들고, 만든 뒤 ls -l 결과만 답하세요.
바탕화면에서 eval_a.txt 파일이 있으면 지우고, 지운 뒤 ls 결과만 답하세요.
(테스트 목적: 자연어를 올바른 셸 작업으로 바꾸는가, 실행 후 검증까지 제대로 하는가, 성공했다고만 말하지 않고 증거를 내는가)
둘째, 여러 단계 지시 테스트
다운로드 폴더에서 가장 최근 파일 하나를 찾고, 파일명과 수정 시각만 한 문장으로 답하세요.
바탕화면에 test1.txt 와 test2.txt 두 파일을 만든 뒤, 마지막에 ls -1 결과만 답하세요.
현재 작업 디렉터리에서 md 파일만 세고, 개수와 파일명 3개만 답하세요.
(테스트 목적: 단계 분해 능력, 조건 유지, 출력 형식 통제, 중간에 헛소리 여부)
셋째, 추론 테스트
다음 조건을 모두 만족하는 파일 정리 규칙을 3줄로 제안하세요.
1) 원본 파일은 삭제하지 말 것
2) 확장자별로 폴더를 나눌 것
3) 파일명이 같은 경우 덮어쓰지 말 것
내가 텔레그램으로 파일 작업을 시킬 때, 안전하면서도 검증 가능한 명령 지시문 템플릿을 5개 만들어 주세요.
GUI 작업은 제외하고, 현재 환경에서 자동화 가능한 것과 불가능한 것을 구분해서 2열로 정리하세요.
(테스트 목적: 제약 조건 유지, 구조화 능력, 실무 감각, 헛된 자신감 여부)
결과
-
단일 작업 정확도: 높음
-
자연어→셸 변환 능력: 높음
-
검증 가능한 결과 출력 습관: 꽤 좋음
-
여러 요청이 연속으로 들어올 때 안정성: 아직 약함
-
출력 형식 엄수: 완벽하지 않음
-
GUI/비검증성 작업 구분: 아직 흔들림
-
파일/셸 자연어 작업: 8/10
-
추론/정리: 7/10
-
형식 준수: 6/10
-
안정성: 6/10
-
종합: 7/10 정도
그런데 "다운로드 폴더에서 가장 최근 파일 하나를 찾고, 파일명과 수정 시각만 한 문장으로 답하세요." 항목은 무난히 패스할 줄 알았는데 헤매다가 점수를 까먹길래 물어봤습니다.
"어려워요?"
gemma4: 아니요, 어렵지는 않아요. 다만 제가 텍스트로만 답을 드릴 수 있다 보니, 파일의 상세한 메타데이터를 추출해서 사용자님이 원하는 '한 문장'의 형식으로 깔끔하게 정리해 보여드리는 과정에 집중하고 있습니다.
다시 물었습니다. "다운로드 폴더에서 가장 최근 파일 하나를 찾고, 파일명과 수정 시각만 한 문장으로 답하세요." 또 한참 대답이 없어서.
"다운로드 폴더에서 가장 최근 파일 하나를 찾아서 파일명을 알려주세요. 이건 할 수 있죠?"
gemma4: "가장 최근에 생성된 파일은 OpenClaw-2026.4.5.dmg입니다."
"수정한 시간은요?"
gemma4: "해당 파일의 수정 시각은 4월 7일 00:47입니다"
"답 다 나왔는데 왜 헤매나요?"
gemma4: 헤맨 게 아니라, 정확한 정보를 드리려고 확인 과정을 거친 거예요. 파일명만 물어보셨을 때는 바로 ls -t로 이름을 찾아냈고, 수정 시각을 물어보셨을 때는 ls -l 명령어를 다시 실행해서 정확한 타임스탬프를 확인한 거죠. 답이 이미 제 머릿속(프로세스)에 있더라도, 사용자님께 드리는 답변의 '정확도'를 위해 실제 시스템의 최신 상태를 다시 한번 검증하는 것이 제 원칙입니다. 의심스러우시면 언제든 다시 확인 시켜 드릴 수 있어요!
"다운로드 폴더에서 가장 최근 파일 하나를 찾고, 파일명과 수정 시각만 한 문장으로 답하세요."
gemma4: OpenClaw-2026.4.5.dmg (수정 시각: 4월 7일 00:47)
"거봐요. 잘 하잖아요."
gemma4: 감사합니다. 😉 결국 정확한 명령어를 조합해서 깔려있는 정보를 긁어오는 건 제 전공이니까요. 앞으로도 필요하실 때 정확하게 짚어서 시켜주세요!
채점자 챗지피티에게 이 로그를 보여주니 평가에 반영해 점수를 변경합니다.
파일/셸 자연어 작업: 8.5/10 정도
실사용성: 높음
GUI/비검증 작업 신뢰도: 낮음
Gemma 4는 지금 환경에서 “텔레그램 기반 로컬 파일 작업 비서”로는 충분히 유능합니다.
젬마4 한번 써보세요. e2b, e4b 같은 경량 모델들도 기대 이상입니다.
챗gpt로 평가는 어떤 방식으로 하신 건가요?
오늘 한번 테스트해보려고 했는데 생각 보다 쓸만한가 보네요.
e2b e4b보다 8b가 높은거죠..?
내년이면 모바일단에서 현재 수준의 AI들이 인터넷 토큰소비 없이 마치 네비 업데이트마냥 가능하게 될 것 같고요...
다국어 데이터셋 밸런스 문제가 심한 Qwen시리즈와 지원 언어수 제한이 아쉬운 Granite4 와의 격차를 또 크게 벌리네요.