CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·아이포니앙 ·주식한당 ·MaClien ·일본산당 ·방탄소년당 ·개발한당 ·자전거당 ·소시당 ·안드로메당 ·디아블로당 ·AI그림당 ·나스당 ·노젓는당 ·골프당 ·이륜차당 ·육아당 ·가상화폐당 ·여행을떠난당 ·AI당 ·냐옹이당 ·개판이당 ·3D메이킹 ·요리한당 ·걸그룹당 ·스팀한당 ·소셜게임한당 ·달린당 ·바다건너당 ·덕질한당 ·야구당 ·e북본당 ·물고기당 ·꼬들한당 ·리눅서당 ·찰칵찍당 ·빨콩이당 ·시계찬당 ·X세대당 ·ADHD당 ·날아간당 ·사과시계당 ·배드민턴당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·문명하셨당 ·클래시앙 ·클다방 ·콘솔한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·동숲한당 ·날아올랑 ·전기자전거당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·젬워한당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·IoT당 ·KARA당 ·키보드당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·영화본당 ·MTG한당 ·소리당 ·노키앙 ·적는당 ·방송한당 ·PC튜닝한당 ·그림그린당 ·소풍간당 ·심는당 ·패스오브엑자일당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·축구당 ·나혼자산당 ·스타한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·공대시계당 ·터치패드당 ·트윗당 ·창업한당 ·VR당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당 ·윈폰이당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

개인적으로 몰랐던, LLM AI시대에 상대적으로 불리한 한국어의 특성 31

2
2026-06-29 05:03:05 수정일 : 2026-06-29 15:35:10 211.♡.229.1
가을길

모든 언어와 글자에는 장점과 단점이 있는데
그동안 무의식적으로 비 전공자로서 한국어와 한글의 장점만 교육 받았고 (들었고)
한자/아랍어/영어의 단점만 들었던 것 같습니다.
(최근 AI와의 대화/학습을 통해서 다른 언어(영어,한자,베트남,아랍어)들의 장점도 많이 알게(교육) 되었습니다)


저는 전혀 몰랐었는데 

특히 현재의 AI LLM수준에서 한국어가 상대적으로 불리한 특성들이  있다고 합니다.

1)  토큰 단위로 연산하고 비용을 청구하는데
      이 비용은 현재 수준에서는 한자>=영어>일본어>=한국어 수준으로 비용이 적게 든다고 합니다.[부등호 수정]
2) ai의 컨텍스트 윈도우 용량이 제한된 상태에서 (메모리 용량)
   한글은 상대적으로 메모리를 많이 사용하기 때문에 불리하다고 합니다
3) 동음이의어,동음으로 서로 다른 뜻을 가진 문자가 많음
    소리나는 대로 적을 수 있는 장점이 해석의 불명확성으로 인해서 추론 비용이 더 들어감

4) 한국어는 문자 단위의 의미 압축력이 낮아서 상대적으로 토큰수가 많이 들어가는 경우가 많음 

5) 신조어 생성이 자유로운 점이 장점이지만 ai는 신조어를 학습하지 않았기 때문에 이 부분도 추론을 해야 한다. 

6) 띄어 쓰기가 엄격하지 않아서 정보의 분할이 불안정하다  [오타수정]

7) 조사가 많아서(표현이 많아서) 학습 데이터 량도 늘어난다.
8)  훈련에 필요한 언어 데이터의 압도적 부족 (영어, 한자, 아랍어에 비해서)


중국어

1) 문자 자체가 의미를 담고 있으며

2) 한 글자가 담는 정보량이 크며
3) 상대적으로 경직된 문자(의미와 문자가 비교적 고정) 체계로 인해서 

4) 토큰 효율이 높고

5) 데이터 규모도 매우 큼 

등에서 일반적으로는 유리하다고 합니다. 


순수하게 현재 수준의 AI  LLM 효율성 관점에서 바라본 것이기 때문에
한국어와 한글의 일반적인 특성은 언급하지 않았습니다

AI가 발달하면 이런 불리함도 없어질 수 있다고도 합니다.


근거 자료

https://jangwook.net/en/blog/en/multilingual-llm-token-tax-experiment/?utm_source=chatgpt.com

동일한 정보량의 글을 썼을 때 한국어가 영어보다 1.38배~1.82배 더 많은 토큰(비용)을 사용한다는 경향을 조사/비교 


https://community.openai.com/t/need-more-efficient-tokenizer-for-korean/286682?utm_source=chatgpt.com

OpenAI 공식 커뮤니티의 한국어 최적화 요청 쓰레드


https://www.pokutta.com/blog/hidden-cost-tokenization/?utm_source=chatgpt.com

세바스티안 포쿠타 교수의 토큰화의 숨겨진 비용 블로그 


https://denyslinkov.medium.com/why-is-gpt-3-15-77x-more-expensive-for-certain-languages-2b19a4adc4bc

"왜 GPT-3는 특정 언어에서 15.77배 더 비싼가?"이며, 다국어 간 토큰 소모량의 격차를 정량 그래프로 보여줍니다. 


https://github.com/huggingface/tokenizers/issues/1975
"한글은 영어보다 2~3배의 토큰을 더 소모하며, 유저들이 비용을 더 내고 있다"는 점을 지적/분석하는 글 입니다. 


https://platform.openai.com/tokenizer

여기에 똑같은 의미의 문장을 영어와 한국어로 각각 타이핑해 보세요. 글자 색상이 쪼개지는 것을 볼 수 있습니다.






가을길 님의 게시글 댓글
SIGNATURE
세계관-인간은 자연과 인간의 위협으로부터 노출되어있는 불안정한 존재이며, 선동되기 쉬운존재이다. 때론 집단의욕망은 통제되지 않은 광기로발전할위험이있다.원인은결과를야기한다.불안정한것은평행상태로돌아간다.
긍정적시선-조선족,고려인,동포,통일,민주,부조리척결,복지,세계시민,인간애,단통법,공정위,기초과학지원,국민연금,인류애,비폭력,사회적약자,미담,서민,가족,시골,자연,역사,유교,다양성,시끄러움,부족함,기본소득제,진화론
부정적시선-부정경쟁(중국기업,재벌친족기업,쿠팡).통제되지않은권력(대기업노조,의료노조),갑질,소득주도성장,이슬람의경직성,종교의정치참여,종교비과세,사상획일화(정치,사상,종교),제국주의,후진국차별,인종차별, 공기업민영화,의료민영화,의료국영화,우경화,극우,극좌,일베,통일에부정적인정치인,폭력,동아시아민족주의,유일신신앙,통제되지않은경쟁
정체성혼란-민족주의와세계시민,도시와재벌의경쟁력,통제의효율성
서명 더 보기 서명 가리기
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [31]
IloveDaughter
IP 76.♡.65.42
05:17 2026-06-29 05:17:59
·
중국어가 AI시대에는 나름 장점도 있군요 ㅋ
오타이실 수도 있겠지만 ...
뛰어 쓰기(x)
띄어 쓰기(o)
유니꾸
IP 14.♡.86.144
06:49 2026-06-29 06:49:40
·
@IloveDaughter님 저는 그것도 그건데 등호 반대로 써두신게 응? 했네요... 한자>영어>일본어>=한국어... ㅎㅎ 한자가 젤 비용이 크다는 걸로..
세꼬시
IP 211.♡.155.55
09:01 2026-06-29 09:01:29
·
@유니꾸님 등호는 방향이 없습니다. 부등호를 말씀하신거죠?
영원한프레시맨
IP 218.♡.65.95
12:34 2026-06-29 12:34:18
·
@IloveDaughter님
이 댓글들 참 재미있네요.
이 글에는 오타/띄어쓰기 오류 없습니다. ^^
가을길
IP 211.♡.229.1
14:39 2026-06-29 14:39:25 / 수정일: 2026-06-29 14:39:40
·
@IloveDaughter님
@유니꾸님
수정하였습니다. 지적 감사합니다.
그리고 별도로 링크를 추가하였습니다.
아빠늘보
IP 106.♡.195.77
05:28 2026-06-29 05:28:53
·
그래서 한국말은 끝까지 들어봐야 안다는 거군요.. ㅜㅜ
풀로야
IP 14.♡.109.70
07:32 2026-06-29 07:32:20
·
@아빠늘보님 알면 알 수록 비효율적인 언어 미완성의 언어,,,
stepd
IP 61.♡.48.162
05:36 2026-06-29 05:36:50 / 수정일: 2026-06-29 06:13:17
·
중국어는 인간이 작성하는데 한글보다 훨씬 더 오래 걸립니다.
컴퓨터 해석이라고 해봤자. 0.0001초 정도 더 빨리 해석되는 정도이지만
작성하는데 3~5초가 더 걸리면 결국 경쟁력에서 손해라고 생각합니다.

컴퓨터 성능과 AI기술은 배수로 계속 발전하기 때문에 언어 해석으로 인한 토큰은 미래엔 점 점 더 작아지겠지만
인간이 언어를 작성하는 시간은 지금보다 더 빨라질 수 없기 때문에
결과적으로 한국인이 AI활용에 훨씬 유리할 것 같습니다.

추가로 이후에는 음성 인식이 주류가 될텐데.
중국어는 글씨일 때는 쓰기는 어려워도 명확하고 압축률이 좋았겠지만 오히려 음성일 때는 동음이의어가 압도적으로 많기 때문에 오히려 불리함으로 작용될 수 있습니다.
한글은 애초에 소리나는 대로 타이핑 하기 때문에 음성으로 해도 해석에 차이가 거의 없습니다.
가을길
IP 211.♡.229.1
15:37 2026-06-29 15:37:11
·
@stepd님
1. 미래 기술이 아니라 현재수준에서의 평가 입니다.
2. 언어의 비교가 아니라 AI LLM 효율성 관점입니다.
3. 생각보다 중국어가 AI관점에서 음성 효율이 나쁘지 않다고 합니다.
존폴
IP 58.♡.136.236
05:42 2026-06-29 05:42:16
·
자연어 모델을 공부해 봤던 입장에서 형태소 구분처리가 조금 까다롭긴 하지만 아주 우수한 언어 입니다 압축율도 좋습니다 여러모로 AI시대에 좋은 언어가 맞습니다
가을길
IP 211.♡.229.1
15:38 2026-06-29 15:38:56 / 수정일: 2026-06-29 15:42:40
·
@존폴님
저도 계속 그렇게 들어왔고 그렇게 알고 있었습니다
그런데 여기서는 AI에 한국어가 좋은 언어인가를 검토하는 것이 아닙니다.
순수하게 현재 수준에서 토큰 효율 관점에서의 비교로는
한국어가 불리한 점이 있다고 합니다
추가로 근거 자료를 본문에 추가하였습니다.
엉클머리
IP 211.♡.237.157
06:00 2026-06-29 06:00:36 / 수정일: 2026-06-29 06:12:47
·
이렇다고 합니다.

일부 토크나이저에서 중국어/한자 표현이 더 적은 토큰으로 나오는 경우는 있지만, 그것은 문자의 우월성이 아니라 토크나이저 설계, 학습 데이터 분량, 언어 구조, 문장 스타일의 결과다. 따라서 “한국어가 특정 환경에서 토큰 수상 불리할 수 있다”는 말은 가능하지만, “한자가 한글보다 AI 시대에 더 유리하다”는 결론은 과장이다.
가을길
IP 211.♡.229.1
14:38 2026-06-29 14:38:30
·
@엉클머리님
문자의 우월성에 대한 이야기가 아니라
순수하게 AI LLM 관점에서의 효율성에 관한 내용입니다.

추가로 근거에 대한 힝크를 추가하였습니다.
엉클머리
IP 211.♡.237.157
18:48 2026-06-29 18:48:27 / 수정일: 2026-06-29 19:30:11
·
@가을길님 작성하신 글에는 사실과 주장이 섞여 있습니다. 중국어가 영어보다 토큰 수가 적거나 같다는 정보는 감사합니다. 이 부분에 대해 확인하는 중에 챗지피티가 덤으로 사실과 주장을 구별해서 정리해 주었습니다. 사실에 대한 근거는 잘 알겠습니다. 이미 익히 알려진 내용입니다. 그 원인도 익히 잘 알려져 있습니다. 지피티나 클로드는 영어권 토크나이져에 최적화되어 있어서 입니다. 혹시 중국에서 만든 LLM을 많이 사용하고 계신다면, 말씀처럼 오히려 영어보다도 중국어의 토큰 수가 더 적다는 경험이 생길 수 있습니다. 다른 많은 분들도 댓글을 달아주시는 듯합니다. 그 이유가 작성하신 글이 초기에는 한글이 불리하다로 시작해서 맺음에는 중국어가 유리하다로 끝나기 때문 아닐까 싶습니다. 지피티 또한 그러한 결론이라고 여기나 봅니다. 작성하신 의도가 경험을 공유하고자 하시는 듯한데, 중국에서 만든 LLM에는 중국어 토큰 사용량이 영어보다 적을 수 있다는 가능성을 나타내신 거라고 알겠습니다. 그러나 토큰 수량으로 언어의 효율성을 따지지시는 것은 입출력 토큰의 관점이고, AI가 가장 많은 토큰을 소비하는 맥락의 효율성을 간과하고 계신겁니다. 그러므로 첨부하신 근거 자료는 효율성을 대표하기 어려운 국소적 자료라고 할 수 있습니다.

우리도 초대형 국산 LLM을 만든다면, 우리말의 토큰 사용량이 영어보다도 더 적을 것이라 예견합니다. 즉 한국어가 LLM AI에 불리한 특성이라는 주장은 일부 토크나이저 환경에 따릅니다. 특히 언급하신 시대라는 구별에서, 아직 시기적으로 AI 시대의 초기에 있기 때문에, 말씀하신 한국어가 AI 시대에 불리하다는 것은 현재의 상황으로 앞으로의 상황을 비약한 것일 수 있습니다. 반대로, 오히려 유리하다고 말씀드릴 수 있습니다. 이 또한 여러 근거에 기반합니다. 지나가는 글이었는데, 댓글에 정성스레 첨부 자료까지 추가하셔서, 조금 더 정성으로 댓글을 작성했습니다.
지에르
IP 129.♡.96.4
06:25 2026-06-29 06:25:46
·
토큰이 더 많이 들어가는게 가장 큰 이유인데, 위에 댓글 처럼 그게 동음이의어가 많다거나 애매한 내용이 많아서 그런건 아니고, 토큰화 하는 과정이 영어에 맞춰져 있는 점. 그래서 토크나이저 설계를 어떻게 하느냐에 달린 문제라고 봅니다.
가을길
IP 211.♡.229.1
14:56 2026-06-29 14:56:25
·
@지에르님
네 그것도 가장 큰 이유중에 하나라고 합니다.
참고로 근거자료를 찾아서 링크를 추가하였으니 참조해주세요
Watanka
IP 12.♡.152.121
06:45 2026-06-29 06:45:30 / 수정일: 2026-06-29 06:51:49
·
주장만 있지 근거가 없네요. AI 챗봇이 근거라니...
얼핏 한글이 비효울적이란 얘기를 들은 적은 있지만 자세히는 몰랐는데.
이내용을 보니 더 모르겠네요.
AI 는 word embedding 과정을 거치기 때문에 글자수 적다고 효율적인건 아닙니다.
뭔가 구체적인 내용이 있어야...
가을길
IP 211.♡.229.1
14:36 2026-06-29 14:36:57
·
@Watanka님
유튜브에서 언어 전문가가 나와서 이야기하는 것을 듣고 찾아보았습니다.
본문에 링크를 추가하였습니다.
goodbuddy
IP 119.♡.180.151
07:06 2026-06-29 07:06:56
·
한국인들이 그래서 머리가 좋은가요?
말만해도 동음이의어를 맥락상에서 구분하고 더 많은 워킴메모리를 사용하고...
대화만 해도 사고가 더 복잡하게 일어나겠군요 ^^
멋진상우
IP 106.♡.81.205
07:18 2026-06-29 07:18:42
·
그런데 어디서 이런 내용을 보셨나요?
가을길
IP 211.♡.229.1
14:35 2026-06-29 14:35:59 / 수정일: 2026-06-29 14:37:10
·
@멋진상우님
유튜브에서 언어 전문가가 나와서 이야기하는 것을 듣고 찾아보았습니다.
본문에 링크를 추가하였습니다.
풀로야
IP 14.♡.109.70
07:37 2026-06-29 07:37:39
·
사실 한국이 한자를 버림으로써 얻은 이점이 크지만 동시에 잃은 것도 크다고 생각하네요. 구조주의자들은 일찌감치 언어와 의식의 연관성을 탐구해왔는데, 확실히 중국 젊은이, 일본 젊은이와 한국 젊은이를 나란히 놓고 보면 대화의 질이 다르더군요. 뭐 그게 더 낫다 아니다를 떠나서 한문쓰는 애들이 더 철학적이고 문학적인 표현을 즐겨 씁니다.
한국에선 곧바로 '오글거린다'며 놀림당하겠지만 전혀 그렇지 않고, 심지어는 아름답게 들리기도 해요. 일본애들 말하는 거 보면 나긋나긋 소설에서 주고 받는 대화 같고 중국애들은 논어에서 주고 받을 법한 대화를 하는 ㅋㅋ
Redeyes
IP 125.♡.211.22
08:20 2026-06-29 08:20:12
·
LLM 입장에서 한국어의 진짜 약점은 그저 토크나이저/학습 데이터가 영어,중국어 편향이라 토큰 효율이 나빠인데 모델 인프라의 문제를 가지고 “한국어 = 비효율”로 뭉뚱그리는게 어이털림.
심지어 언어는 역사와 문화와 상호작용하는건데…
일본인들은 나긋나긋하게 말 안했으면 이미 칼 맞아 죽었음. 막말하던 유전자는 이미 조상대에서 목이 달아났으니 살려고 저렇게 된건데 그런 것들을 그냥 싹 무시하네…
가을길
IP 211.♡.229.1
14:35 2026-06-29 14:35:12 / 수정일: 2026-06-29 15:55:04
·
@Redeyes님
언어 비교를 하는 것이 아니라
AI LLM 효율에 대한 이야기 입니다.

그리고 님도 AI LLM관점에서 한국어의 비효율성 자체는 어느 정도 인정하고 있다고 보여집니다.
Yupa
IP 123.♡.235.5
08:39 2026-06-29 08:39:45
·
언어 문제가 아니라 미국, 중국에서 자국 언어로 학습하다 보니 타국 언어가 불리한 점이 있는거고,
나머지 자잘한 문제는 어차피 콤퓨타가 조금 더 계산하면 되는거죠.
소금망치
IP 106.♡.226.234
08:57 2026-06-29 08:57:32
·
자..그럼 추론의 영역에서 한글이 그 복잡성 자유도 측면에서 일조하는 바 가 상당하다는 의미로 저는 이해됩니다.
가을길
IP 211.♡.229.1
14:54 2026-06-29 14:54:14
·
@소금망치님
근거자료를 추가하였으니 참고해주세요
니오
IP 211.♡.22.142
11:33 2026-06-29 11:33:16 / 수정일: 2026-06-29 11:33:32
·
다른 관점이 있는데요. 지금 인구로 오랫동안 다양성이 더 많은 컨텍스트 생산 누적된 결과, 결국 학습할 DB 양 자체가 중국이 더 많아서, 추론에 한자가 더 유리하게 나오는거 아닐지도 생각화 봐야죠, 인구가 결국 많은 다양성의 결과, 미국이 2억 넘는 인구지만 유학생, 여행, 미허가 체류자 포함 4억 이상 인원이, 막대한 양질의 컨텍스트 좋은 학교, 좋은 회사들이 논문을 쏟아내서, 그걸 LLM 이 학습해서 잘 답변하는 부분이랑 일맥상통 한다고 봅니다.
가을길
IP 211.♡.229.1
14:54 2026-06-29 14:54:44
·
@니오님
근거자료를 추가하였으니 참고해주세요
에리카
IP 165.♡.181.191
15:58 2026-06-29 15:58:16
·
역시 한글이 효율이 나쁘네요 ㅜㅠ
IloveDaughter
IP 76.♡.65.42
18:45 2026-06-29 18:45:47
·
@에리카님 한글 보다 한국어가 그런거겠죠...
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.