모든 언어와 글자에는 장점과 단점이 있는데
그동안 무의식적으로 비 전공자로서 한국어와 한글의 장점만 교육 받았고 (들었고)
한자/아랍어/영어의 단점만 들었던 것 같습니다.
(최근 AI와의 대화/학습을 통해서 다른 언어(영어,한자,베트남,아랍어)들의 장점도 많이 알게(교육) 되었습니다)
저는 전혀 몰랐었는데
특히 현재의 AI LLM수준에서 한국어가 상대적으로 불리한 특성들이 있다고 합니다.
1) 토큰 단위로 연산하고 비용을 청구하는데
이 비용은 현재 수준에서는 한자>=영어>일본어>=한국어 수준으로 비용이 적게 든다고 합니다.[부등호 수정]
2) ai의 컨텍스트 윈도우 용량이 제한된 상태에서 (메모리 용량)
한글은 상대적으로 메모리를 많이 사용하기 때문에 불리하다고 합니다
3) 동음이의어,동음으로 서로 다른 뜻을 가진 문자가 많음
소리나는 대로 적을 수 있는 장점이 해석의 불명확성으로 인해서 추론 비용이 더 들어감
4) 한국어는 문자 단위의 의미 압축력이 낮아서 상대적으로 토큰수가 많이 들어가는 경우가 많음
5) 신조어 생성이 자유로운 점이 장점이지만 ai는 신조어를 학습하지 않았기 때문에 이 부분도 추론을 해야 한다.
6) 띄어 쓰기가 엄격하지 않아서 정보의 분할이 불안정하다 [오타수정]
7) 조사가 많아서(표현이 많아서) 학습 데이터 량도 늘어난다.
8) 훈련에 필요한 언어 데이터의 압도적 부족 (영어, 한자, 아랍어에 비해서)
중국어
1) 문자 자체가 의미를 담고 있으며
2) 한 글자가 담는 정보량이 크며
3) 상대적으로 경직된 문자(의미와 문자가 비교적 고정) 체계로 인해서
4) 토큰 효율이 높고
5) 데이터 규모도 매우 큼
등에서 일반적으로는 유리하다고 합니다.
순수하게 현재 수준의 AI LLM 효율성 관점에서 바라본 것이기 때문에
한국어와 한글의 일반적인 특성은 언급하지 않았습니다
AI가 발달하면 이런 불리함도 없어질 수 있다고도 합니다.
근거 자료
https://jangwook.net/en/blog/en/multilingual-llm-token-tax-experiment/?utm_source=chatgpt.com
동일한 정보량의 글을 썼을 때 한국어가 영어보다 1.38배~1.82배 더 많은 토큰(비용)을 사용한다는 경향을 조사/비교
OpenAI 공식 커뮤니티의 한국어 최적화 요청 쓰레드
https://www.pokutta.com/blog/hidden-cost-tokenization/?utm_source=chatgpt.com
세바스티안 포쿠타 교수의 토큰화의 숨겨진 비용 블로그
https://denyslinkov.medium.com/why-is-gpt-3-15-77x-more-expensive-for-certain-languages-2b19a4adc4bc
"왜 GPT-3는 특정 언어에서 15.77배 더 비싼가?"이며, 다국어 간 토큰 소모량의 격차를 정량 그래프로 보여줍니다.
https://github.com/huggingface/tokenizers/issues/1975
"한글은 영어보다 2~3배의 토큰을 더 소모하며, 유저들이 비용을 더 내고 있다"는 점을 지적/분석하는 글 입니다.
https://platform.openai.com/tokenizer
여기에 똑같은 의미의 문장을 영어와 한국어로 각각 타이핑해 보세요. 글자 색상이 쪼개지는 것을 볼 수 있습니다.
오타이실 수도 있겠지만 ...
뛰어 쓰기(x)
띄어 쓰기(o)
이 댓글들 참 재미있네요.
이 글에는 오타/띄어쓰기 오류 없습니다. ^^
@유니꾸님
수정하였습니다. 지적 감사합니다.
그리고 별도로 링크를 추가하였습니다.
컴퓨터 해석이라고 해봤자. 0.0001초 정도 더 빨리 해석되는 정도이지만
작성하는데 3~5초가 더 걸리면 결국 경쟁력에서 손해라고 생각합니다.
컴퓨터 성능과 AI기술은 배수로 계속 발전하기 때문에 언어 해석으로 인한 토큰은 미래엔 점 점 더 작아지겠지만
인간이 언어를 작성하는 시간은 지금보다 더 빨라질 수 없기 때문에
결과적으로 한국인이 AI활용에 훨씬 유리할 것 같습니다.
추가로 이후에는 음성 인식이 주류가 될텐데.
중국어는 글씨일 때는 쓰기는 어려워도 명확하고 압축률이 좋았겠지만 오히려 음성일 때는 동음이의어가 압도적으로 많기 때문에 오히려 불리함으로 작용될 수 있습니다.
한글은 애초에 소리나는 대로 타이핑 하기 때문에 음성으로 해도 해석에 차이가 거의 없습니다.
1. 미래 기술이 아니라 현재수준에서의 평가 입니다.
2. 언어의 비교가 아니라 AI LLM 효율성 관점입니다.
3. 생각보다 중국어가 AI관점에서 음성 효율이 나쁘지 않다고 합니다.
저도 계속 그렇게 들어왔고 그렇게 알고 있었습니다
그런데 여기서는 AI에 한국어가 좋은 언어인가를 검토하는 것이 아닙니다.
순수하게 현재 수준에서 토큰 효율 관점에서의 비교로는
한국어가 불리한 점이 있다고 합니다
추가로 근거 자료를 본문에 추가하였습니다.
일부 토크나이저에서 중국어/한자 표현이 더 적은 토큰으로 나오는 경우는 있지만, 그것은 문자의 우월성이 아니라 토크나이저 설계, 학습 데이터 분량, 언어 구조, 문장 스타일의 결과다. 따라서 “한국어가 특정 환경에서 토큰 수상 불리할 수 있다”는 말은 가능하지만, “한자가 한글보다 AI 시대에 더 유리하다”는 결론은 과장이다.
문자의 우월성에 대한 이야기가 아니라
순수하게 AI LLM 관점에서의 효율성에 관한 내용입니다.
추가로 근거에 대한 힝크를 추가하였습니다.
우리도 초대형 국산 LLM을 만든다면, 우리말의 토큰 사용량이 영어보다도 더 적을 것이라 예견합니다. 즉 한국어가 LLM AI에 불리한 특성이라는 주장은 일부 토크나이저 환경에 따릅니다. 특히 언급하신 시대라는 구별에서, 아직 시기적으로 AI 시대의 초기에 있기 때문에, 말씀하신 한국어가 AI 시대에 불리하다는 것은 현재의 상황으로 앞으로의 상황을 비약한 것일 수 있습니다. 반대로, 오히려 유리하다고 말씀드릴 수 있습니다. 이 또한 여러 근거에 기반합니다. 지나가는 글이었는데, 댓글에 정성스레 첨부 자료까지 추가하셔서, 조금 더 정성으로 댓글을 작성했습니다.
네 그것도 가장 큰 이유중에 하나라고 합니다.
참고로 근거자료를 찾아서 링크를 추가하였으니 참조해주세요
얼핏 한글이 비효울적이란 얘기를 들은 적은 있지만 자세히는 몰랐는데.
이내용을 보니 더 모르겠네요.
AI 는 word embedding 과정을 거치기 때문에 글자수 적다고 효율적인건 아닙니다.
뭔가 구체적인 내용이 있어야...
유튜브에서 언어 전문가가 나와서 이야기하는 것을 듣고 찾아보았습니다.
본문에 링크를 추가하였습니다.
말만해도 동음이의어를 맥락상에서 구분하고 더 많은 워킴메모리를 사용하고...
대화만 해도 사고가 더 복잡하게 일어나겠군요 ^^
유튜브에서 언어 전문가가 나와서 이야기하는 것을 듣고 찾아보았습니다.
본문에 링크를 추가하였습니다.
한국에선 곧바로 '오글거린다'며 놀림당하겠지만 전혀 그렇지 않고, 심지어는 아름답게 들리기도 해요. 일본애들 말하는 거 보면 나긋나긋 소설에서 주고 받는 대화 같고 중국애들은 논어에서 주고 받을 법한 대화를 하는 ㅋㅋ
심지어 언어는 역사와 문화와 상호작용하는건데…
일본인들은 나긋나긋하게 말 안했으면 이미 칼 맞아 죽었음. 막말하던 유전자는 이미 조상대에서 목이 달아났으니 살려고 저렇게 된건데 그런 것들을 그냥 싹 무시하네…
언어 비교를 하는 것이 아니라
AI LLM 효율에 대한 이야기 입니다.
그리고 님도 AI LLM관점에서 한국어의 비효율성 자체는 어느 정도 인정하고 있다고 보여집니다.
나머지 자잘한 문제는 어차피 콤퓨타가 조금 더 계산하면 되는거죠.
근거자료를 추가하였으니 참고해주세요
근거자료를 추가하였으니 참고해주세요