유니코드에 큰 빌런짓을 했던 한글... : 클리앙

f

모두의공원

유니코드에 큰 빌런짓을 했던 한글... 23

4

따끈따끈

5,218

2022-10-25 02:09:31 수정일 : 2022-10-25 02:12:54 220.♡.238.46

유니코드 1.0 엔 KS C 5601 기반 완성형 코드 2,350자가 순서대로 들어가 있고, 유니코드 1.1엔 여기에 아무도 모를 KS X 1002 및 중국 요청 추가자를 포함한 4,306자가 더해져서 총 6,656자가 들어있었다고 합니다.

이미 유니코드 1.1 부터 MS의 통합형(=확장 완성형, CP949, 윈95부터 도입됨) 한글보다 더 개판인 상태였죠. (통합형은 그나마 현대한글 11,172자를 다 넣은 상태임.)

이에 한국대표는 유니코드 2.0 제정시 완성형 현대한글 11,172자를 가나다순으로 새 영역에 배당할 것을 요청했습니다.

여기에 대해 갑론을박이 많았으나 결국 기존 평면(U+3400~U+4DFF)에 배당한 한글 6,656자를 없애고 새 평면(U+AC00~U+D7A3)에 현대한글 11,172자를 가나다 순으로 배당하는 것으로 결정했으며, 여기에 덧붙여 유니코드 2.0부터는 한 번 배당한 문자는 절대 옮기거나 없애지 않는다는 정책을 세웠죠.

즉, 유니코드 1.0~1.1과 2.0 이후는 완성형 한글 입장에서는 전혀 호환되지 않는 딴 코드가 되어버렸습니다.

(그리고 제가 2000년도 중반 유니코드 1.1 기반의 오라클 DB에서 매운맛을 톡톡히 보았... orz 이것땜에 이걸 기억하고 있습죠.)

덧. 첫가끝 기반 조합형 코드의 경우 유니코드 1.1부터 U+1100~U+11FF에 할당되어 있으며, 이 영역을 계속 유지하고 있습니다. 애플이 한글 파일명에 대해 이 조합형 영역을 지금까지도 사용하고 있는데, 이는 유니코드 호환을 위한 정책으로 보입니다. 반대로 MS는 제 경험상 XP까지 첫가끝을 제대로 지원 안했죠. 종종 윈7에서도 mac에서 저장한 한글 파일명이 풀려나오는걸 본 기억도 있고요.

따끈따끈

님의

SIGNATURE

나는 어디? 여긴 누구?

서명 더 보기 서명 가리기

댓글 • [23]

d0raem0n

·

ms가 표준을 준수하는거죠. 비표준 미지원 경우를 위해 가능한 표준으로 제공되는게 좋죠.
mac도 nfc nfd 모두 잘 보여주는건 좋은데 nfd 잘 보여주는건 선택이지만 외부로 보낼 때는 nfc 변환해서 보내야죠.

andre518

·

@d0raem0n님 ms가 표준을 준수한게 아닙니다.
ms 덕에 완성형의 코드들이 누더기가 되어 난리도 아니었는데...
적어도 한글 문제에 있어서 마이크로소프트는 절대 좋은 소리 들을 수 없습니다..

andre518

·

@d0raem0n님 리눅스, 유닉스, mac os X 등 MS외의 경우에는 그러한 문제가 발생하지 않구요..

andre518

·

@d0raem0n님

영상으로 한 번 보시는 것도 좋습니다..

따끈따끈

·

@d0raem0n님 비트 절약 측면에선 NFC 변환이 맞겠지만, NFC/NFD 둘 다 유니코드 표준임엔 변함이 없으므로 요즘같이 저장공간이 넓은 세상에 한글표현을 NFC 만으로 강제하는건 일종의 폭거(?)라고 생각합니다.
하지만 정작 macOS를 메인으로 쓰는 제 입장에서, 몇몇 프로그램에서 긴 한글명으로 저장시 디렉토리 패스+파일명 길이 초과로 저장이 튕기는걸 생각하면... NFC가 이득이 크긴 해요. ㅎㅎㅎㅎㅎ
오죽하면 구식 Win32 API에서 강제하는 255bytes 상에서의 한글명보다 macOS의 한글명이 체감상 훨씬 짧게 느껴지거든요.

andre518

·

@d0raem0n님 "지난날 정부는 셈틀(컴퓨터) 표준안을 정할 때 두벌식 자판에 완성형 코드를 국내 표준으로 정했다. 세벌식 자판에 조합형 코드를 표준으로 정하면, 오늘날 쓰는 24자가 초성, 중성, 종성이 조합해서 11172개 글자를 만들어 쓸 수 있다. 그런데 두벌식 자판에 완성형 코드를 표준으로 정해서 2350개 글자만 컴퓨터에서 쓰게 했다. 그래서 국민도 불편하고 한글 발전을 가로 막았다. 이런 엉터리 표준이 어디 있단 말인가? 그래서 말썽이 나니 미국 마이크로소프트 회사가 8820자를 더 쓰게 하는 확장 완성형을 만들어 이 문제를 모면했다. 그러나 근본 문제가 해결된 게 아니다. 국민이 자세한 이 실상을 알면 분노할 것이다."

https://www.newshankuk.com/news/content.asp?news_idx=2010102511064747409

d0raem0n

·

@님

아래 KSx1026-1 문서 5.2 절 참고 부탁 드립니다.
https://e-ks.kr/streamdocs/view/sd;streamdocsId=72059251690133256
응용 프로그램의 외부와 자료를 보내고 받을 때는 반드시 완성형 한글 글자마디로 처리해야 한다.

시간이 너무 늦어서 더 이상 의견 교환은 어려운 점 양해 부탁 드립니다.

따끈따끈

·

@님 님이 거신 유튭 영상 중의 "쓩" 글자는 참 많은걸 이야기하고 있죠.
분명 완성형 코드에는 "쓩"이 있지만, 정작 "쓔"가 없어서 쓩을 일반적인 방법으로는 입력할 수 없었다는 것이...

따끈따끈

·

@d0raem0n님 KS X 1026 - 1의 "5.2"는 오늘 처음 봅니다. 그런데 제정연월이 2007년 말이군요.
MS가 유니코드는 무시하고 완성-통합형 한글만 지원하던 윈2000 까진 사실 NFC를 지키려고 지킨게 아니었던 걸로 보입니다.
어차피 MS든 애플이든 둘 다 외국회사라 KS X 1026 를 안지켜도 큰 문제가 없긴 하지만요. (이 두 회사에겐 유니코드를 지키는게 더 큰 과제.)

따끈따끈

·

@님 CP949 : 때릴거야?

d0raem0n

·

@님 참고로 제정연월 2007년은 유니코드 2.0 발표 1996년의 11년 이후 입니다. 해당 문서에서 말하는 완성형은 유니코드 U+AC00~D7A3 영역으로 문서에 설명되어 있습니다. 추가 참고로 현재 유니코드 버전은 15.0 입니다.

d0raem0n

·

참고로 nfd가 나쁘다는게 아니라 외부 인터페이싱 호환성을 위해 새 논의 후 표준이 개정될 때까지는 nfc 단일 표준이 거지 같아도 표준은 준수해야한다는 입장입니다.

따끈따끈

·

@d0raem0n님 결국 나라가 "KS완성형을 쓰라"고 강제한 90년대와 변한게 없다는 것이죠. KS vs. KSSM의 싸움(?)의 재림...

andre518

·

@d0raem0n님 고생하셨습니다. 다만 마이크로소프트가 표준을 준수한다는 말씀은 틀렸다는 말씀을 드리기 위함이구.. (정확하게 표현하면 마이크로소프트뿐만 아니라 현대적인 운영체제들 지원하는 NFC, NFD 둘 다 표준이구) 적어도 한글 문제에 관한한 마이크로소프트는 욕을 먹었음 먹었지 칭찬 들을게 없습니다라는 말씀을 드리고 싶었어요. 뒷 얘기가 많습니다만, 그 부분은 이해 부탁드립니다.

따끈따끈

·

@d0raem0n님 @님 많은 분들겐 별 의미없을 한글 코드 표현에 대해 이정도의 의견을 내주신 것에 대해 감사드립니다.
통합형 논쟁 이후 정말로 오랜만에 이런 이야기를 다 해보게 되니 뭔가 새로운 기분이네요. ㅎㅎㅎ

지하철승객

·

@님 현재야 리거시가 되려서 엉망진창이 되었지만
애시당초 한글 자체를 쓸 수 없거나, 도깨비 카드 같은 한글 하드웨어 카드를 설치해야만 한글을 사용할 수 있던 1980년대 시절에 KS 표준을 지켜서 추가비용없이 한글을 사용할 수 있는 환경을 만들었던 건 칭찬 들을만 했다고 생각하는데요. 뭐, 첫 단추가 저렇다보니 이후에는 엉망이 되긴 했죠.

MS에 대해 전반적으론 좋은 이야기 해줄 수 어렵다는 점에는 동의합니다.

LinkeneitoR

·

@님 https://devblogs.microsoft.com/oldnewthing/20201009-00/?p=104351
마소쪽 사람이니 그닥 신뢰하실것 같진 않지만 어쨋든 여기 내용 상에는 한글을 NFD로 표현하는건
유니코드와 한국의 권장사항을 무시하는 행위라고 이야기 하고 있습니다
아마 NFD가 또하나의 표준이기도 하고 NFC를 쓸지, NFD를 쓸지는 권장사항이지 강제는 아니기 때문에 저렇게 돌려서 이야기 하는것 같네요

그외에도 iOS에서는 아래 문서의 일부가 깨져서 나옵니다 (제 아이폰은 iOS 16입니다)
깨지는 부분은 한글기준으로 내용 부분, 영문 기준으로는 Implications of the Songs 부분이며
애플이 유니코드를 제대로 준수했다면 그런일은 없어야겠죠?
https://ko.wikipedia.org/wiki/%EC%9A%A9%EB%B9%84%EC%96%B4%EC%B2%9C%EA%B0%80

GPT

·

다른 이야기지만, 유니코드에서 한글/한자가 차지하는 비율이 제 기억에 1/3 정도 되었던 것으로 알고 있습니다.
앞서 언급되었지만, 조합형은 물론이고 모든 완성형까지 다 들어가 있고 한글 고어도 있죠. 게다가 한자도 다 들어 있습니다.

한국 사람들이 대략 유니코드 1/3을 다 쓴다는 이야기죠.. 유니코드는 한국어 사용자를 위해 만들어졌다고 해도 과언은 아닌 것 같습니다..

지하철승객

·

@OPENSTEP님 한자...를 한국어 사용자를 위한 부분이라고 하기는 좀 미묘하지 않을까요.
게다가 중국 한자는 번체, 간체 2세트에다가 온갖 고문자가 있어서 갯수가 워낙 넘사벽이라...

https://preview.redd.it/6ng5o74p7d841.png?auto=webp&s=34674c7a482c4f879f640a34e86db322f5dd6d83

건강과미용엔역시커피

·

@OPENSTEP님
최신 버전의 유니코드에서 한자와 한글에 배정된 개수는 대략 다음과 같습니다.
- 한자 (CJK; China, Japan, Korea에서 사용하는 한자) : 약 97,000자
- 한글 : 약 11,000자

참고 1. 일본어는 히라가나와 가타카나를 모두 합쳐 200개가 안 됩니다.
참고 2. 현재 유니코드에 배정된 언어는 150개 정도이고, 배정된 총 개수는 약 149,000개 정도입니다.
참고 3. 예~전에는 CJKV(CJK + 베트남에서 사용하는 한자를 포함) 버전도 있었으나, 지금은 거의 안 씁니다.

결론 : 유니코드 전체 개수의 65% 정도는 한자. 반면 한글은 7% 정도.

GPT

·

@건강과미용엔역시커피님 업데이트 감사합니다

삭제 되었습니다.

닥터안

·

만든 사람들이 아직도 현역에 있는 상황에서도 억측이 난무하니 시간이 많이 지나면 소설이 난무하겠네요. 언제 설명회라도 한 번 해야 하려나요? ㅎㅎㅎ

GPT

·

이 문서가 아직 살아있네요
http://kristalinfo.dynu.net/K-Lab/unicode/Unicode_intro-kr.html

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET