전 온디바이스를 두 가지로 구분해서 보아야 한다고 생각합니다.
- 기능
- 지식
이렇게 구분하는 이유가 있습니다.
앞으로 어찌 될지... 아무도 모르는 일이지만...
# 기능
기능을 강조한다는 말은 달리 말하면 지식이 부족해도 큰 상관이 없는 작업을 뜻합니다.
그런데 생각보다 적습니다.
왜냐면 지식의 양이 결과의 퀄리티에 생각 보다 깊이 관여 되어 있어서입니다.
그렇다면 절충점을 찾을 수 있습니다.
기능 또한 두 가지로 나누어서,
말 그대로 사진 보정 하거나 폴더 내 파일 정리와 같은 8B 이하에서도 충분히 만족할 만한 성능을 위한 최소 지식 수준을 갖는 경우와 보다 높은 만족도를 꾀하고자 하는 12B 정도의 모델을 말입니다.
# 지식
지식의 양에 따라 답변의 퀄리티가 달라집니다.
예를 들어 고민 상담이 가장 많이 쓰이는 용도라고 하는데,
이런 것들은 어휘로 드러나는 감성의 영역을 포괄하며
관련 설문조사 통계로 보면 가장 많은 사용의 이유가 고민 상담이었습니다.
이렇게 나누어서 보는 이유는
과연 챗지피티, 제미나이, 그록, 클로드 등을
스마트폰을 필두로 한 온디바이스로 대체할 때 역체감이 심하지 않을 수 있을까...
라는 질문 때문입니다.
즉, 현 사용자가 역체감을 최소화 하면서 사용하기 위한 지식의 양...
전 대략 30B 전후로 보고 있습니다.
로컬 모델의 업데이트가 진행 될 때 마다 반복 테스트를 해보면,
동 사이즈 대비해서 엄청난 성능 향상이 있었음을 체감할 수 있지만,
모델 사이즈가 30B이하와 이상은 그 지식에 따르는 답변의 만족도에서
꽤 크게 갈라졌습니다.
정리합니다.
대중이 가장 많이 활용하는 방법에 눈높이를 두고 본다면,
30B 가량이 기준이 될 것 같습니다. 이하로는 만족도가 높기 어렵습니다.
배경 없애는 편집, 단순 번역, 폴더 정리 등등은
어떤 용도에 따라 다르지만 4B로도 충분한 케이스가 있으나
프런티어 모델에서 옮겨 올 때의 역체감을 최소화 시키려면
대개 8B 정도는 되어야 하지 않나 싶습니다.
물론 일반적인 온 디바이스 기준이고,
업무 활용 및 다른 환경을 통합해서 보면...기준 점이 조금 더 올라갑니다.
특히 메모리 가격이 언제 떨어질지 알 수 없는 현실에서는,
과연 폰 안의 모델이 다른 맥이나 데스크탑에서의 활용을 대체 가능할까.. 에선 아닐 것 같습니다.
영역을 분리 할 뿐...
주식 관련한 질문이라면...
우리나라 온디바이스는 관심이 없습니다.
본인 판단으로 하셔야 할 듯 하네요.
주식에 너무 심취하지 않으셨으면 좋겠습니다.
만사 주식과 연관하면 피곤하지 않겠습니까.
지식도 구분해서 봐야 한다고 보고 있는데요.
2T 이상에선 아직 꽤 많은 발전의 가능성이 있습니다.
그런데 작은 사이즈.. 즉 30B 정도에선...거의 9부 능선은 온 것 같습니다.
학습데이터의 고도화를 말하는 건데요.
이미 거의 ...
2T 이상이 다른 것은 고도로 정제 된 데이터가 이 정도 이상으로 있지 않아서...
더 만들어 가야 하는 과정 중.
말씀하신 4비트 양자화해도 지식이 받쳐주는 경우 추론과 기억까지 감안하면
32GB는 되어야 하니... 지식 쪽의 대체는 어렵고,
학습 보단 못하지만 작은 모델의 기능적인 부분과 검색을 더한 ..
절충 된 서비스는 괜찮을 것 같습니다.
그런데 유의해서 봐야할 점은 2년 전까지만 해도 그 기준이 70B였다는거죠. 그 사이에 2배 넘게 줄었습니다. 10B 이하 모델은 맞춤법 수정, 번역 작업 같은 기본 언어 기능 외에는 못써먹을 수준이었는데 이제 tool calling 등 agentic한 용도로는 어느정도 쓸만한 수준까지 올라왔구요.
어디까지 발전할지는 알 수 없지만 개인적으로는 1년 이내에 현재 30B 모델 정도의 성능을 내는 10-15B 모델이 나오리라 기대하고 있습니다. 그정도면 폰에서도 돌릴만 하거든요.
정답은 모른다...가 아닐까 싶습니다.
다만, 각자의 판단이 있는 것이고,
전 이미 작은 사이즈에선 학습 데이터가 거의 최고조에 가까워져 있다고 보고 있습니다. 머리 끝까지는 모르겠지만 어깨 위로는 갔다고 보는 것입니다.
1년 전에는 허리였다가 이제는 어깨까지 왔기에 Qwen3.6이나 젬마4가 그 정도까지 왔다고 본 것입니다.
위에 댓글에도 달았지만 큰 모델의 경우 최적화된 데이터가 아직도 모자라기 때문에 이것을 확보하기 위한 전쟁이 벌어지고 있습니다. 아직 더 나아질 여지가 좀 더 많다는 것이고요.
기능적으로는 나아질 구석이 많겠죠. 말씀하신 tool 관련해서요. 저도 이 쪽으로는 꽤 남아 있다고 보고 있습니다.
그래서 성능 면에서...는 말씀하신 사이즈까지 내려가겠지만,
그것이 얽혀 있는 지식은... 힘들다고 보는 것입니다.
그 예로 지식 관련 벤치 점수는... 생각 보다 잘 안 오르고 있습니다.
에이전트, 멀티 모달 쪽으로 쑥쑥 오르는 것에 비해 상대적으로요.
지식의 부족에도 불구하고 최대한의 성능을 낼 수 있게 하겠지만,
지식의 부족을 완전히 메꿀 수... 어렵지 않나.. 하는 것이죠.
이런 판단은 30B의 학습 데이터가 현재 이미 최적화 되어 있다고 보는 관점에서의 판단입니다.
제 생각과 달리 아직 작은사이즈의 최적화도 갈길이 많아 남아있다면...
말씀하신대로 될 수도 있겠습니다.