모든 언어와 글자에는 장점과 단점이 있는데
그동안 무의식적으로 비 전공자로서 한국어와 한글의 장점만 교육 받았고 (들었고)
한자/아랍어/영어의 단점만 들었던 것 같습니다.
(최근 AI와의 대화/학습을 통해서 다른 언어(영어,한자,베트남,아랍어)들의 장점도 많이 알게(교육) 되었습니다)
저는 전혀 몰랐었는데
특히 현재의 AI LLM수준에서 한국어가 상대적으로 불리한 특성들이 있다고 합니다.
1) 토큰 단위로 연산하고 비용을 청구하는데
이 비용은 현재 수준에서는 한자>영어>일본어>=한국어 수준으로 비용이 많이 든다고 합니다.
2) ai의 컨텍스트 윈도우 용량이 제한된 상태에서 (메모리 용량)
한글은 상대적으로 메모리를 많이 사용하기 때문에 불리하다고 합니다
3) 동음이의어,동음으로 서로 다른 뜻을 가진 문자가 많음
소리나는 대로 적을 수 있는 장점이 해석의 불명확성으로 인해서 추론 비용이 더 들어감
4) 한국어는 문자 단위의 의미 압축력이 낮아서 상대적으로 토큰수가 많이 들어가는 경우가 많음
5) 신조어 생성이 자유로운 점이 장점이지만 ai는 신조어를 학습하지 않았기 때문에 이 부분도 추론을 해야 한다.
6) 뛰어 쓰기가 엄격하지 않아서 정보의 분할이 불안정하다
7) 조사가 많아서(표현이 많아서) 학습 데이터 량도 늘어난다.
8) 훈련에 필요한 언어 데이터의 압도적 부족 (영어, 한자, 아랍어에 비해서)
중국어
1) 문자 자체가 의미를 담고 있으며
2) 한 글자가 담는 정보량이 크며
3) 상대적으로 경직된 문자(의미와 문자가 비교적 고정) 체계로 인해서
4) 토큰 효율이 높고
5) 데이터 규모도 매우 큼
등에서 일반적으로는 유리하다고 합니다.
순수하게 현재 수준의 AI LLM 효율성 관점에서 바라본 것이기 때문에
한국어와 한글의 일반적인 특성은 언급하지 않았습니다
AI가 발달하면 이런 불리함도 없어질 수 있다고도 합니다.
오타이실 수도 있겠지만 ...
뛰어 쓰기(x)
띄어 쓰기(o)
이 댓글들 참 재미있네요.
이 글에는 오타/띄어쓰기 오류 없습니다. ^^
컴퓨터 해석이라고 해봤자. 0.0001초 정도 더 빨리 해석되는 정도이지만
작성하는데 3~5초가 더 걸리면 결국 경쟁력에서 손해라고 생각합니다.
컴퓨터 성능과 AI기술은 배수로 계속 발전하기 때문에 언어 해석으로 인한 토큰은 미래엔 점 점 더 작아지겠지만
인간이 언어를 작성하는 시간은 지금보다 더 빨라질 수 없기 때문에
결과적으로 한국인이 AI활용에 훨씬 유리할 것 같습니다.
추가로 이후에는 음성 인식이 주류가 될텐데.
중국어는 글씨일 때는 쓰기는 어려워도 명확하고 압축률이 좋았겠지만 오히려 음성일 때는 동음이의어가 압도적으로 많기 때문에 오히려 불리함으로 작용될 수 있습니다.
한글은 애초에 소리나는 대로 타이핑 하기 때문에 음성으로 해도 해석에 차이가 거의 없습니다.
일부 토크나이저에서 중국어/한자 표현이 더 적은 토큰으로 나오는 경우는 있지만, 그것은 문자의 우월성이 아니라 토크나이저 설계, 학습 데이터 분량, 언어 구조, 문장 스타일의 결과다. 따라서 “한국어가 특정 환경에서 토큰 수상 불리할 수 있다”는 말은 가능하지만, “한자가 한글보다 AI 시대에 더 유리하다”는 결론은 과장이다.
얼핏 한글이 비효울적이란 얘기를 들은 적은 있지만 자세히는 몰랐는데.
이내용을 보니 더 모르겠네요.
AI 는 word embedding 과정을 거치기 때문에 글자수 적다고 효율적인건 아닙니다.
뭔가 구체적인 내용이 있어야...
말만해도 동음이의어를 맥락상에서 구분하고 더 많은 워킴메모리를 사용하고...
대화만 해도 사고가 더 복잡하게 일어나겠군요 ^^
한국에선 곧바로 '오글거린다'며 놀림당하겠지만 전혀 그렇지 않고, 심지어는 아름답게 들리기도 해요. 일본애들 말하는 거 보면 나긋나긋 소설에서 주고 받는 대화 같고 중국애들은 논어에서 주고 받을 법한 대화를 하는 ㅋㅋ
심지어 언어는 역사와 문화와 상호작용하는건데…
일본인들은 나긋나긋하게 말 안했으면 이미 칼 맞아 죽었음. 막말하던 유전자는 이미 조상대에서 목이 달아났으니 살려고 저렇게 된건데 그런 것들을 그냥 싹 무시하네…
나머지 자잘한 문제는 어차피 콤퓨타가 조금 더 계산하면 되는거죠.