개인적으로 몰랐던, LLM AI시대에 상대적으로 불리한 한국어의 특성 : 클리앙

모든 언어와 글자에는 장점과 단점이 있는데
그동안 무의식적으로 비 전공자로서 한국어와 한글의 장점만 교육 받았고 (들었고)
한자/아랍어/영어의 단점만 들었던 것 같습니다.
(최근 AI와의 대화/학습을 통해서 다른 언어(영어,한자,베트남,아랍어)들의 장점도 많이 알게(교육) 되었습니다)

저는 전혀 몰랐었는데

특히 현재의 AI LLM수준에서 한국어가 상대적으로 불리한 특성들이 있다고 합니다.

1) 토큰 단위로 연산하고 비용을 청구하는데
이 비용은 현재 수준에서는 한자>=영어>일본어>=한국어 수준으로 비용이 적게 든다고 합니다.[부등호 수정]
2) ai의 컨텍스트 윈도우 용량이 제한된 상태에서 (메모리 용량)
한글은 상대적으로 메모리를 많이 사용하기 때문에 불리하다고 합니다
3) 동음이의어,동음으로 서로 다른 뜻을 가진 문자가 많음
소리나는 대로 적을 수 있는 장점이 해석의 불명확성으로 인해서 추론 비용이 더 들어감

4) 한국어는 문자 단위의 의미 압축력이 낮아서 상대적으로 토큰수가 많이 들어가는 경우가 많음

5) 신조어 생성이 자유로운 점이 장점이지만 ai는 신조어를 학습하지 않았기 때문에 이 부분도 추론을 해야 한다.

6) 띄어 쓰기가 엄격하지 않아서 정보의 분할이 불안정하다 [오타수정]

7) 조사가 많아서(표현이 많아서) 학습 데이터 량도 늘어난다.
8) 훈련에 필요한 언어 데이터의 압도적 부족 (영어, 한자, 아랍어에 비해서)

중국어

1) 문자 자체가 의미를 담고 있으며

2) 한 글자가 담는 정보량이 크며
3) 상대적으로 경직된 문자(의미와 문자가 비교적 고정) 체계로 인해서

4) 토큰 효율이 높고

5) 데이터 규모도 매우 큼

등에서 일반적으로는 유리하다고 합니다.

순수하게 현재 수준의 AI LLM 효율성 관점에서 바라본 것이기 때문에
한국어와 한글의 일반적인 특성은 언급하지 않았습니다

AI가 발달하면 이런 불리함도 없어질 수 있다고도 합니다.

근거 자료