아래 영상에 한컴이 데이터 포맷를 독점하고 있어 소버린 AI개발이 지연되고 있다는 내용이 나오네요.
일부 맞는 말이지만, 조금 생각해보면 뭔가 논리적 모순이 있네요.
이 논리의 핵심은 공문서의 hwp 포맷이 글로벌 표준이 아니라 인공지능이 쉽게 학습데이터로 쓸 수 없다는 겁니다.
그런데, 만약 데이터 포맷을 지금 공개하면 그게 소버린 AI개발에만 쓰이는 게 아니게 되죠. 즉, 이미 전세계 탑급 인공지능이 그 자료를 먼저 사용하게 되지 않을까요? 또 이미 오래된 hwp포맷은 pdf 같은 포맷이라 인공지능이 조금 더 발전되면 못읽을 정도는 아닐꺼라 봅니다. 그렇다는 것은 소버린 AI개발을 위해 데이터 포맷보다는 인공지능의 hwp인식 능력을 향상시키는 게 훨씬 빠른 길 같네요.
게다가 목적이 소버린 AI개발이라면, 데이타 포맷 공개 보다는 소버린 AI 개발사에게는 다른나라 인공지능 기업보다 데이터 접근이 용이하게 하는 어떤 혜택을 주는 게 맞지 않나 싶네요.
무조건 개방하라는 건 좀 대책이 없어 보이네요.
자세한 건 아래 영상 참고하세요.
덧글, 이와 관련하여 요즘 인공지능관련 유튜브 영상같은 걸 보면 뭔가 인공지능이 만능해결사가 될 거라고 생각하는 내용이 많더군요.
그런데, 그것과는 조금 다른 결의 책이 있어 소개합니다.
인공지능은 생각하지 않는다. 김송규 글
그 책에서 제일 인상깊은 구절은 "결국 인공지능을 잘 사용하기 위해서는 인공지능이라는 도구를 배우는데 시간과 역량을 투자하는 것보다, 인공지능을 이용하여 '무엇을' '어떻게' 할지를 고민하고 그에 대한 자신만의 답을 찾을 수 있는 능력을 키우는데 투자해야 한다." "세상에 휩쓸려 정보를 습득하는 데만 익숙해지게 되면, 스스로 정보를 만들고 생각하는 힘을 상실하게 된다. 검색으로 얻는 정보든 생성형 AI를 통해 만들어진 정보든 중요한 것은 정보에 대한 판단이고, 올바른 판단을 위해서 필요한 것은 생각하는 능력이다. "
특정 AI 에만 열어 준다는 것이 특혜일런지도 모르겠네요.
소버린 AI자체가 이미 특혜를 전제하지 않고는 불가능 한 거 아닌가요?
트랜스포머가 문장이나 언어의 형식을 이용하는 거지 문서의 파일포맷을 이용하는 것이 아니라는 것입니다. 즉, 한글이 폐쇄적인 정책을 가져간다면 AI 활용이나 학습용으로는 자연스럽게 활용이 어려워 질것이라는 이야깁니다.
LLM이 프로그램 언어나 md 파일 처럼 읽어 들이기 좋은 포맷에서 좋은 결과가 있는 것도 그 특징이 있는 것이죠.
반대로 도메인 특화, 예를 들어 공공기관 특화 모델 개발이 아니라면, 아무리 소버린이라 하더라도 모델 성능은 학습량과 관계가 있겠죠. 이미 한글 문서 외 수많은 정보들이 있는데, 한글 포맷을 어느 모델에게만 열어 준다가 무슨 특혜가 될지 의문이란 말입니다.
네, 영상 보시면 이미 한컴이 선처리 솔루션을 가지고 있다네요. 다만 가격이 비싸다고 합니다.
그 데이터 선처리를 우리나라 기업이 하고 혜택을 받은 우리나라 소버린 AI개발 기업은 그 처리된 데이터를 이용해야 외국기업에게는 없는 특화된 인공지능이 생길 거 같기는 합니다.