네이버가 국가대표AI에서 탈락한 이유 : 클리앙

뉴스에서는 비전인코더와 오디오인코더를 중국 알리바바의 Qwen 것을 가져다 쓴 것에 대해 지적하지만,

이것이 어떤 의미인지 잘 모르는 분들이 있을 것 같아 적어 봅니다.

비유를 들게 되면 이해에 도움이 됩니다.

네이버의 작은 모델의 경우 네이티브로 통합 된 옴니모달이라고 했습니다.

이게 무슨 말인가.

바로 텍스트든 이미지든 어떤 것이든 모두 같은 신호로 이해하고 해석한다는 것입니다.

여기서 비전 인코더의 역할이 나옵니다. 즉, 비전 인코더로 이미지를 시각토큰으로 바꾸어

결국에는 텍스트와 통합된 신호가 들어가는 것입니다.

네이버는 이미 이러한 인코더를 가지고 있었다는 것으로 알려져 있습니다.

왜 굳이 Qwen을 썼는지 알 수 없으나 아무래도 성능 차이 때문이 아닐까 싶습니다.

옴니모달로 설계 된 네이버의 AI모델이 본체이고,

비전인코더, 오디오인코더는

눈과 귀 역할이라고 보면 되겠습니다.

오픈소스 진영에서 눈과 귀와 같은 파츠를 쓰는 것은 자연스러운 일입니다.

예를 들어 어떤 소규모 집단이 5년 전부터 어떤 오픈소스를 만들 때

오픈소스인 5개의 중요 파츠와 백여가지의 라이브러리를 사용해서

완성된 앱 하나를 만들었고, 또 다른 집단이 다시 이것을 변형한 버전을 만들기도 합니다.

거인의 어깨 위에 서는(Standing on the shoulders of giants)...

것이라고 보통 말합니다.

대표적인 예가 VSCODE입니다.

인터페이스가 비슷하게 보이는 IDE의 다수가 변형 버전입니다.

네이버가 탈락한 이유는 국가대표AI모델의 취지와 부합하지 않아서입니다.

즉, 소버린AI의 목적에 부합하도록 경연을 통해 가장 나은 모델이 선택 되고,

앞으로의 발전 과정에 여러 지원을 받게 하는 것은,

어떤 곳에서 만든 모델이든 거기서 비롯되는 기술 자립의 시작점이 될 수 있는 도전을 했느냐 하지 않았느냐의

차이로 보면 되지 않나 싶습니다.

예들 들어 최종 선발 된 A라는 모델이 있다면,

이 오픈소스가 위에서 언급한 '거인의 어깨'가 되도록...오리지널이 되라는 의미입니다.

거인의 어깨 위에 서는 이들이 한국인의 눈과 귀를 가진 거인이어야 하는 것을

명시한 대회였다는 것입니다.

사실, 오픈소스의 기본적인 정신에 비추어 보면 어느 정도 부분적인 제한을 두는 것과 같은 양상이긴 합니다.

즉, 이상적이진 않는다는 말입니다.

그런데 이것은 오픈소스를 가장 선두에 둔 기준이었을 때 그렇습니다.

국가대표AI의 대표 주제는,

국가대표여서요. 이 기준이면 한국에서 만든 눈과 귀를 갖는 거인이어야 했습니다.

모두의공원