최현정 구글 연구원
인공지능(AI) 비서에게 친구와 대화하듯이 음성 명령을 내리면 큰 낭패를 볼 수가 있다. 화자와 청자의 관계에 따라 표현이 달라지는 한국어의 특성 때문이다. 한국어는 자연어처리(NLP)가 어려운 언어로 꼽힌다. 한국어가 갖는 풍부한 표현은 컴퓨터와 사람이 인간의 언어로 상호작용하는 데 걸림돌이 된다. 그렇다면 이를 극복하기 위해 어떻게 해야 할까.
구글코리아는 12월5일 'AI 혁신과 자연어 처리'를 주제로 포럼을 열었다. 이 자리에서 구글 전산 언어학자 팀을 이끄는 최현정 연구원은 한국어의 자연어 처리가 가장 어려웠다고 고충을 토로했다. 최현정 연구원은 한국어의 자연어 처리가 힘든 이유로 ▲구어와 문어의 큰 차이 ▲청자와 화자의 관계에 따른 높임법 ▲운율적 요소에 따른 의미 변화 ▲주어·서술어·목적어 등의 빈번한 생략 ▲띄어쓰기의 어려움 등을 꼽았다.
구어와 문어의 차이는 한국어에서 도드라지게 나타난다. 최현정 연구원은 "영어에서도 나타나는 현상이지만 특히 한국에서는 구글에서 문어로 검색할 때와 구글 어시스턴트를 사용할 때 나오는 데이터가 굉장히 다르다"라고 말했다. 또 한국어는 화자와 청자의 관계에 따라 높임법이 달라지기 때문에 컴퓨터가 언어를 읽을 수 있도록 말뭉치(Corpus)를 구성하기도 힘들다.
영어 라틴어 계열은 그래도 단어단어 띄어쓰니까 데이터 수집이 좀 용이할 거 같은데.
한국어는 진짜 대충 생각해봐도 너무 어렵습니다.
그냥 기업에서의 중요도에서 뒤로 밀린다고 생각하는게 제일 간단하다고 봅니다.
중요도보다는 쌓인 데이터의 차이라고 생각합니다.
시간이 해결해줄 문제 같아요
데이터가 있어야 학습을 하든말든 하죠..
일할때도 업무내용 듣는데 힘들어죽겟습니다
전세계에 200여개국이 있고 언어는 6000개가 넘는데 과연 이게 시장성이 없는 걸까요?
영어권, 스패인어권이나 옆 중국어권에 비하면 못하겠지만, 한국 자체가 소득수준도 높고 it 인프라도
잘 되어있기때문에 꽤 매력적인 시장에 속합니다. 굳이 비하할 필요는 없어요.
그리고 한국을 저평가 하는 사람들은 꼭 일본을 띄우거나 연관시키더군요?
일뽕 주요 증상 중 하나 같습니다.
이런 거 말이죠.
한문의 특성상 표현할수 있는 한계가 많아서요.