요즘 오픈웨이트 LLM들을 보면서 드는 생각이 있습니다.
의외로 로컬LLM이 성능이 별로라는 이야기가 나오길래 저도 떠올려보니 지금의 프론티어가 성능이 좋아지면서 그런게 아닐까 생각이 들어 자료를 조사해봤습니다.
글요약: 출시된 오픈웨이트모델, 그러니까 로컬LLM으로 돌릴 수 있는 모델이 그 직전세대(여기서는 6개월전의 프론티어모델)대비 얼마나 좋은 성능을 내는가의 정확한 자료를 찾아보고 싶었고, 그 결과 어렴풋이 생각했던 한계효용법칙의 시점이 다가오는게 아닐까 생각하던 것을 정리해보았습니다.
프론티어 모델이 더 이상 발전하지 않는다는 뜻은 아닙니다. GPT, Claude, Gemini 같은 최상위 모델들은 계속 좋아지고 있고, 아마 앞으로도 좋아질 겁니다. 다만 일반 사용자가 체감하는 효용 기준으로 보면, 이제 “더 좋아지는 것”의 가치가 예전만큼 크지 않아지는 구간에 들어가는 것 아닌가 싶습니다.
제가 흥미롭게 본 건 오픈웨이트 모델의 따라잡는 속도입니다.
예전에는 로컬 LLM이나 오픈웨이트 모델이라고 하면 “재미는 있는데 실사용은 좀…”에 가까웠습니다. 그런데 요즘은 Qwen, DeepSeek, Kimi, GLM, Gemma, Llama 쪽 모델들을 보면 분위기가 꽤 달라졌습니다. 단순히 파라미터 수가 커져서가 아니라, 더 작은 모델이 이전 세대의 훨씬 큰 모델이나 당시 프론티어 모델에 근접하거나 일부 영역에서는 넘어서는 일이 반복되고 있습니다.
그래서 제가 대략 정리해본 방식은 이렇습니다.
“오픈웨이트 모델이 출시된 시점에서 6개월 전 프론티어 모델과 비교하면 얼마나 차이가 나는가?”
이 기준으로 보면 재미있는 그림이 나옵니다. 몇몇 오픈웨이트 모델은 이미 6개월 전 프론티어 모델과 거의 동급이거나, 벤치마크상으로는 넘어서는 경우도 있습니다. 물론 벤치마크마다 편차가 크고, 모델카드 수치를 재조합한 것이니 정밀한 순위표로 보면 안 됩니다. 하지만 방향성은 꽤 뚜렷해 보입니다.

코딩 영역만 보면 특히 그렇습니다. DeepSeek R1, Qwen, Kimi, GLM 같은 모델들이 6개월 전 프론티어와의 격차를 상당히 줄였습니다. 최근 Qwen 3.6 27B 같은 모델은 크기만 보면 “이게 되나?” 싶은데, 여러 공개 지표에서는 현재 프론티어급과도 꽤 가까운 위치까지 올라왔습니다.
물론 코딩만 보면 편향이 있을 수 있어서, 글쓰기, 툴콜/에이전트, 번역도 따로 봤습니다.

여기서는 영역별 차이가 보입니다. 글쓰기는 이미 오픈웨이트 상위권이 상당히 강합니다. 툴콜이나 에이전트 계열은 벤치마크마다 편차가 크지만, 일부 모델은 충분히 경쟁권에 들어와 있습니다. 번역은 아직 GPT-4.1 대비 뒤지는 구간이 보여서, “모든 영역에서 다 따라잡았다”고 말하기는 어렵습니다.
그래서 제 결론은 이쪽입니다.
프론티어 모델은 계속 좋아질 것이다.
하지만 일반 사용자가 느끼는 만족도는 점점 포화될 가능성이 크다.
메일 쓰기, 문서 요약, 간단한 코딩 보조, 번역 초안, 자료 정리, 블로그 글 다듬기, 간단한 에이전트 작업 정도에서는 이미 지금도 “충분히 좋다”고 느끼는 사람이 많습니다. 여기서 프론티어 모델이 10% 더 좋아진다고 해서, 사용자가 매달 비싼 클라우드 구독을 계속 유지할 이유가 예전만큼 강할까요?
반대로 오픈웨이트 모델은 점점 더 매력적인 선택지가 됩니다.
로컬에서 돌릴 수 있고, 프라이버시 부담이 적고, API 비용이 없거나 낮고, 마음대로 튜닝하거나 붙일 수 있습니다. 성능이 프론티어보다 약간 낮더라도 체감상 충분하다면, 많은 사용자는 “이 정도면 됐다” 쪽으로 갈 수 있습니다. LLM에서도 일종의 한계효용 체감이 오는 셈입니다.
물론 클라우드 대형 LLM이 바로 위태롭다는 뜻은 아닙니다. 프론티어 모델은 여전히 최신 성능, 멀티모달, 긴 컨텍스트, 안정적인 에이전트 실행, 기업용 관리, 서비스 통합에서 강점이 큽니다. 또 일반 사용자가 로컬 모델을 직접 설치하고 관리하는 것도 아직은 꽤 번거롭습니다.
다만 모델 성능만 놓고 보면, “프론티어만 가능한 일”의 영역이 줄어드는 건 맞아 보입니다. 특히 올해 말쯤이면 지금의 프론티어 모델에 꽤 근접한 오픈웨이트 모델이 나올 가능성이 높다고 봅니다. 그때가 되면 많은 사용자는 최고 성능보다 충분한 성능, 낮은 비용, 로컬 실행, 프라이버시를 더 중요하게 볼 수 있습니다.
결국 시장이 완전히 로컬로 넘어간다기보다는, 이렇게 나뉘지 않을까 싶습니다.
최고 성능과 제품 완성도가 필요한 사람은 프론티어 클라우드를 계속 쓸 것이고,
대부분의 일상적 작업은 오픈웨이트/로컬/저비용 모델로 충분하다고 느끼는 층이 커질 것 같습니다.
요약하면, LLM의 발전이 멈춘다는 이야기가 아니라, 사용자의 체감 효용이 먼저 포화될 수 있다는 이야기입니다.
스마트폰 카메라가 계속 좋아져도 어느 순간부터는 “이 정도면 충분하다”고 느끼는 사람이 많아진 것처럼, LLM도 그런 구간에 들어가고 있는 것 아닐까 싶습니다.
PS. 저는 이 속도면 연말에는 지금의 프론티어급 오픈웨이트가 128G안쪽에서 구동될거 같고, 그러면 상당수의 유저가 한계효용체감의 법칙의 영향을 받지 않을까 생각이 됩니다.
gemma4나 qwen3.6, 3.5 이런것들이요.
효용이 100점 만점에 가깝게 포화되지만
그 만점이 계속 올라가는거죠.
그런 징조가 이미 보이는 경우가 꽤 됩니다.
특히 승기를 잡았다고 여기는 경우나 거의 비등하다고 여겨질 때 그렇습니다.
비디오 모델에서 앞서가는 중국 기업들은 이미 공개 하지 않는 방향으로 간 곳들이 여러 곳입니다.
LLM역시 다를 바 없으나... 오히려 선두가 아니어서 여태 지속 되고 있는 것으로 풀이 해 볼 수 있으며, 향 후 머지않아 공개 행렬이 줄어들 것임을... 영상 모델의 케이스에서 엿 볼 수 있습니다.
즉, 오픈소스의 선두들이 오픈을 지속할지... 에 대해 회의적이라는 것이고, 또 그들이 아니면 지금의 오픈 소스 선두처럼의 결과물을 만들어 내기가 어렵습니다.
중국의 기업 문화는 승리를 위해 수단과 방법을 가리지 않는 것입니다. 과하게 생각하는 것이 아니라 당연한 일로 여기기 때문에 중국 AI 기업들이 서로 베낍니다. 중국 기업들은 AI만이 아니라 다른 분야에서도 서로 기술을 빼가려고 베끼려고 이직이 활발합니다. 오히려 그런 경쟁을 장려 하는 것이 중국이고요. 그래서 화웨이 같은 곳이 생각 보다 선전하는 것 같은데 의외로 또 견제를 받기도 하고요.
후발 주자의 전략으로 오픈 소스 진영에 힘을 보탠 것이지 그 자체가 목적이 아닙니다.
영상의 예를 든 것은 우연이 아니라 가능성이 가장 높아섭니다. 아파치나 MIT라이센스로 풀지 아니하고 API로만 공개하고 있는 것이 이미 있어요. 그리고 얼마 전 나온 현존 영상 SOTA인 해피호스 모델도 더 이상 오픈소스가 아닙니다.
3만원 정도의 구독으로 해결 볼 수 있기에
오히려 구독이 그야말로 거져인 셈입니다.
상용 ai회사들이 구독료, 토큰값 인상하기 시작하면 그때부터 로컬llm이 각광을 받기 시작할거구요.
로컬llm의 시대는 아직 열리지 않았습니다.
한전 전기쓰는것 vs 기름사서 발전기 돌리는것
비슷한듯
유사하게 구현했던 것이 제미나이 3.0이 처음이었던 것 같고, 작년 년말이었습니다.
그런데 그걸 지금 gemma4 28g 짜리 모델이 매우 잘 하더군요. ram 48g 짜리 맥북에서 잘 실행됩니다.