인공지능 비서가 한국어를 어려워하는 이유 : 클리앙

고객지원

© CLIEN.NET

새로운소식

인공지능 비서가 한국어를 어려워하는 이유 32

2017-12-06 04:23:15 61.♡.155.24

antiphob

최현정 구글 연구원

인공지능(AI) 비서에게 친구와 대화하듯이 음성 명령을 내리면 큰 낭패를 볼 수가 있다. 화자와 청자의 관계에 따라 표현이 달라지는 한국어의 특성 때문이다. 한국어는 자연어처리(NLP)가 어려운 언어로 꼽힌다. 한국어가 갖는 풍부한 표현은 컴퓨터와 사람이 인간의 언어로 상호작용하는 데 걸림돌이 된다. 그렇다면 이를 극복하기 위해 어떻게 해야 할까.

구글코리아는 12월5일 'AI 혁신과 자연어 처리'를 주제로 포럼을 열었다. 이 자리에서 구글 전산 언어학자 팀을 이끄는 최현정 연구원은 한국어의 자연어 처리가 가장 어려웠다고 고충을 토로했다. 최현정 연구원은 한국어의 자연어 처리가 힘든 이유로 ▲구어와 문어의 큰 차이 ▲청자와 화자의 관계에 따른 높임법 ▲운율적 요소에 따른 의미 변화 ▲주어·서술어·목적어 등의 빈번한 생략 ▲띄어쓰기의 어려움 등을 꼽았다.

구어와 문어의 차이는 한국어에서 도드라지게 나타난다. 최현정 연구원은 "영어에서도 나타나는 현상이지만 특히 한국에서는 구글에서 문어로 검색할 때와 구글 어시스턴트를 사용할 때 나오는 데이터가 굉장히 다르다"라고 말했다. 또 한국어는 화자와 청자의 관계에 따라 높임법이 달라지기 때문에 컴퓨터가 언어를 읽을 수 있도록 말뭉치(Corpus)를 구성하기도 힘들다.

http://naver.me/5yImLqui

antiphob 님의

댓글 • [32]

클리양

·

당장 연음, 이중모음연음으로 인해 유사발음을 가지고 있는 경우 때문에 연락처에서 엄한 사람에게 전화가 걸리는 경우가 허다해서 개명을 할까 고민한 적도 있었죠.

huni-hit-home

·

진짜 어려운 듯 해요...
영어 라틴어 계열은 그래도 단어단어 띄어쓰니까 데이터 수집이 좀 용이할 거 같은데.
한국어는 진짜 대충 생각해봐도 너무 어렵습니다.

삭제 되었습니다.

쿠아후아

·

몇년 걸리는 사업이더군요

pso999

·

네.. 이게 국가차원에서 안해주면 너무 힘들 수준이라서요 ㅠ

ingress

·

https://m.clien.net/service/board/park/11368215CLIEN 이러한 어려움이 있는데 한국어는 특히나 더 어렵죠

삭제 되었습니다.

김아흥

·

이것도 사실 영어권 중심으로 먼저 개발돼서 그럴겁니드앗. 한국어 말뭉치가 더 많이 연구됐다면 영어가 더 힘들 수도 있지요

MilksWaffle

·

언어 사용인구도 한몫하는 부분이지요. 한국어로 먼저 시작했어도. 금방 영어가 따라잡았을겁니다.

알베르트

·

가끔 한국 사람도 이해가 안되는 한국어 ㅜ.ㅠ

Vanadis

·

웃기는 소리죠. 그럼 일본어는요? 일본어도 한국말과 문법과 어순도 똑같고 우리말과 같은 동음이의어 등의 말도 많고 장난 아닙니다. 그런데 아마존이나 MS나 구글이나 일본어는 항상 먼저 내 놓는다는 말이죠.
그냥 기업에서의 중요도에서 뒤로 밀린다고 생각하는게 제일 간단하다고 봅니다.

크롬의전차

·

야동 생산량이 딸려서 전세계젹인 번역 데이터 부족!!!

xero

·

웃기는 소리는 아닙니다. 영어문화권에서 가장 배우기 힘든 언어 최상위권에 한국어는 거의 빠지지 않는 편이거든요. 물론 일본어도 그렇습니다만. 단지 일본어의 경우 일본이 근대화때부터 가장 힘을 쓴게 번역이었고, 현재에 이르기까지 영미권과의 번역 데이터도 한국어와는 비교도 안 될 정도로 많기 때문에 연구가 수월한 것 뿐이죠. 인구나 경제를 고려하면 더더욱.

중요도보다는 쌓인 데이터의 차이라고 생각합니다.

아둔의창

·

xero님 // 본문에 언급된 이유에 '영어와 차이점이 많다'는 건 일언반구도 없습니다만.. 그리고 자연어 처리는 영어로 기계번역한 뒤에 영어로 처리하는 게 아닙니다. 물론 기존 시스템이 영어에 맞춰 개발돼서 적용에 문제가 있는 건 사실이지만 그런데도 구글 어시스턴트 일본어 개발 상태와 한국어 개발 상태를 비교해 보면 웃기는 소리 맞습니다. 일본어는 대화도 좀 하는데 한국어 구글 어시스턴트는 기존 구글 나우에 비해 새로 할 줄 아는 게 거의 없어서 프리셋 아니면 다 구글 검색 때려버립니다. 솔직히 말해서 목소리도 웬 중년 아저씨로 바뀌어버리고 나우온탭 번역도 잘 있던 거 없애버리고 (번역하고 싶은 부분 지정도 불가능하고 누구 눈꼽만큼만 제멋대로 뽑아서 주며 재수없으면 '화면에 정보가 없습니다' 같은 되도 않은 말 내뱉는 '내 화면에 표시된 내용'이 같은 기능이라느니 뭐니 같은 소리는 사절하겠습니다) 구글 나우보다 좋은 점이 없습니다.

맥덕스

·

다른거 보다 언어 연구 환경이 우리가 일본보다 떨어지는건 인정할 수 밖에 없죠. 일본은 자기네 언어의 전산학 연구가 우리에 비해 꽤나 잘되어 있는 편입니다.

hyuk군

·

학창시절 당시만 하더라도 교수님께서 일본어로 번역된책을 한국어로 다시 재번역 한쪽이 퀄리티가 높다 라고 하신게 생각나네요ㅎㅎ

시간이 해결해줄 문제 같아요

block51

·

일본이 딥러닝이니 머신러닝에 집중하는 것도 관련된 이유지 않을까 추측하네요. 딥러닝 관련 번역서 중에 잘 쓰여진건 거진 일본인 저자더군요.

엽차

·

영어도 어렵기능 마찬가지 그냥 돈을 안쓰는거죠. 한국이즈 개꾸르죠.

pso999

·

영어는 넘치고 흐르는게 corpus입니다 ' 0'...
데이터가 있어야 학습을 하든말든 하죠..

호우기

·

한국어는 중요한말이 왜 뒤에오는지;
일할때도 업무내용 듣는데 힘들어죽겟습니다

ratsnake00

·

호우기님// 어...그러니까....

삭제 되었습니다.

xero

·

상징성이 없지는 않아요. 유통업 종사자로서 말씀드리자면, 아직도 한국시장의 테스트베드적 상징성, 한국 소비자의 베타테스트적 성격 등을 어필하면 외국 기업들과 협상에서 많이 유리합니다. 물론 시장성이 떨어지기 때문에 직접 진출하진 않고, 유통단계가 늘어나 가격은 더 비싸집니다만.

ihadgottten

·

일반적으로 해외기업들이 상품을 출시할 시 한국어는 8~9번째 언어로 지원합니다.
전세계에 200여개국이 있고 언어는 6000개가 넘는데 과연 이게 시장성이 없는 걸까요?
영어권, 스패인어권이나 옆 중국어권에 비하면 못하겠지만, 한국 자체가 소득수준도 높고 it 인프라도
잘 되어있기때문에 꽤 매력적인 시장에 속합니다. 굳이 비하할 필요는 없어요.

그리고 한국을 저평가 하는 사람들은 꼭 일본을 띄우거나 연관시키더군요?
일뽕 주요 증상 중 하나 같습니다.

딸기우유l

·

한국이 일본보다 경제규모나 인구가 적으니 상대적으로 시장성이 떨어질지는 몰라도 무슨 저 땅바닥에 있는 시장쯤으로 말씀하시네요. 비교하신 일본은 세계에서 2등하던 나랍니다 거기랑 비교해서 떨어진다고 무슨 떨거지쯤 취급할 필요는 없죠. 당장 영어 라틴어 중국어 일본어 독일어 프랑스어 이태리어... 손으로 세다보면 열손가락 안에 들겠는데요?

aodoena

·

오오 아름다우시다

삭제 되었습니다.

마데특송

·

여자를 외모로 밖에 평가 못하다니 한심하군요.

엔알이일년만

·

시장성 문제도 맞고 연구원 문제도 있죠 국내에도 nlp쪽에 이름을 올리는 분들이 계시지는 하지만 아직 미국 중국 일본에 비하면.... 그리고 조합형 글자의 맞춤법 문제도 좀 큰거 같아요..

xero

·

이런 거 말이죠.

IOWait

·

"잘도 그러겠다"

ratsnake00

·

"연락처에 잘이란 이름이 없습니다"

폴라티

·

시장성 문제도 있지만, 주어, 술어 생략하고 말하는 경우가 굉장히 많죠. 저도 대한민국 사람이고 우리말을 쓰지만 한국어는 뭔가 책임지기 싫어하는 사람들의 언어에요.

이빨까기

·

믿습니다 아멘

SimplyK

·

그래도 중국어보다는 쉽지않나요 ㅋㅋㅋ

가을길

·

중국어는 오히려 쉽지 않을까요?
한문의 특성상 표현할수 있는 한계가 많아서요.

삭제 되었습니다.

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET

보안 강화를 위한 이메일 인증

안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
개인정보에서도 이메일 인증을 할 수 있습니다.

지금 이메일 인증하기

등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.