AI의 영상 자체의 화질... 예를 들면 피부 텍스쳐의 자연스러움이라던지,
고화질의 도시, 자연 등의 퀄리티는 현재 이미 충분한 편이지만,
제가 말하는 기준은 조금 다릅니다.
긍정으로 보시는 분들이 많지만, 전 동의하지 않았던 이유가 있고,
일부는 저렴하게 영상을 만드는 것이 가능한 것 만으로도 충분하다 생각하지만,
실제 영상 AI를 만드는 곳들은 무엇이 부족한지 알고 있고,
그 해결책을 찾기 위해 골몰하고 있습니다.
이러한 움직임은 예전부터 있어 왔으나 확신을 심어 준 것이 소라2입니다.
저작권을 가리지 않고 학습시켰기 때문에 80년대 한국의 뉴스 방송을
거의 그대로 실감나게 만들어 냅니다.
그럼 좋은 것 아니냐는 말을 할 수 있는데,
상업적으로 써 먹으려면 이런 저작권에 부딪히는 건은 쓸 수 없겠죠.
만든 사람들이 미국 기업이다보니 배짱 부린다고 하지만,
그것으로 제품을 만들어 팔게 될 때는 또 다른 얘기가 되니까요.
가장 관심을 많이 받은 것이 샘 알트만의 영상을 이용 가능하게 한 방식이었는데,
이렇게 한 이유가 있습니다.
바로 실물 캐릭터가 있어야 제대로 실감 나는... 단지 화질만 괜찮고,
뭔가 어색한 부분이 군데 군데 드러나다...그게 10초가 되고 20초가 되고 2분이 되는...
즉, 약간의 눈에 익는 시간만 지나면 점점 더 비슷한 패턴으로 보이는 AI느낌을 거의 피해가지 못합니다.
보다 보면 의식하지 않아도 보인다는 말입니다.
그럼 이런 부분을 잘 아는 영상 AI를 개발하는 곳들이 어떻게 할까요.
네. 소라2에서 아바타를 이용하는 방법이
생각 보다 더 좋은 방법이란 것을 모두가 알게 되었으니 안 그래도 준비하고 있던 것들을
보다 더 가속하려 하겠죠.
클링 2.6에서 편집 기능을 선보이는 것도 대개 이런 식의 AI 특유의 캐릭터, 움직임,
연출을 탈피할 수 있는 편집 기능을 제공하는 것입니다.
보다 더 확실한 상업적 이용을 하려면 모델링을 먼저 하도록 합니다.
예를 들어, 알려진 캐릭터의 일관성을 위해 좌우 전후 위아래의 다양한 사진 또는
AI이미지를 뽑아 내고, 그것을 바탕으로 서비스 회사 내에 아바타가 만들어 집니다.
기존에 이미 제시 된 방법이나 점점 더 고도화 하고 있는 추세입니다.
이것은 LLM의 사전 학습 추세와 결이 비슷하다고 보면 좋겠습니다.
사전에 입력된 데이터의 퀄리티에 따라 결과물이 달라질 수 있으니,
이것을 사용자에게만 맡기는 것이 아니라 기초 재료만 올려주면,
그것을 모듈로 만들어서 내보낼 수 있게 되었다는 것입니다.
어떤 영상을 만들 때의 재료부터 고퀄리티가 될 수 있또록 유도하고,
그런 재료가 쉽게 만들어 질 수 있게 돕고,
나아가 만들어진 영상을 동일한 퀄리티로 편집 할 수 있는 편리한 UI를 제공한다는 말입니다.
그럼 가장 쉽게 생각할 수 있는 방법들이 있죠.
바로 나노바나나 프로로 A라는 캐릭터를 만들고, 입체적인 여러 사진을 뽑아 내고,
그것을 입력하여 클링 2.6 또는 비슷한 서비스에서 그러한 자료를
내부적으로 기억하게 합니다.
장소, 사물 등도 마찬가지로 가능하게 하는 것이 이번 클링 2.6 공개 때의 내용이었습니다.
퀄리티와 일관성에 크게 도움이 되는 방식이라고 할 수 있습니다.
무슨 말이냐면,
결국 완전 텍스트 투 비디오가 보다는,
이미지 투 비디오 방식을 조금 더 고도화 한다는 것인데,
이렇게 하는 것은 손을 더 많이 탑니다.
그러니 이런 과정까지도 조금 더 손이 덜 가게 서비스 기업들이 툴을 제공해주는 방식으로 가는 것입니다.
반면 이렇게 하지 않는 경우는 AI 특유의 느낌이 너무 강합니다.
AI로 만든 광고로 가봅니다. 지금까지는 영상 전반에 대한 이야기였고요.
광고 클릭율이 19% 늘었다고 합니다. 다만 AI 티가 덜 나거나 AI 제작인지 모를 때에 한정됩니다.
AI로 소비자의 관심을 끄는 썸네일을 만들어 광고를 더 많이 보긴 하는데,
AI로 만든 것이 공지 되면...효과가 오히려 반감 되어 -32%가 되었다고 합니다.
사람이 연기 하는 것을 AI가 대체하려면 세부적인 연기 포인트와 그 장면을
제작 목적에 맞게 연출하고 연결할 수 있어야 하는데,
현재는 이런 부분이 많이 취약하기 때문에 결국 사람이 편집을 많이 해야 하지만,
가성비를 위해 선택하는 상황에서 이런 편집에 많은 공을 들이려는 곳이 거의 없기에
결국 영상 생성 과정 자체에서 대부분 해결이 되어야 하고,
편집 기능이 훨씬 더 쉽고 간편하면서 더 나아진 결과물을 만들 수 있어야 하며,
서비스 기업들이 이런 부족한 부분을 메우는 기능을 선보이고 있다는 것이고,
앞으로 이 방향으로 더 늘어날 것이라는 이야기였습니다.
이것도 예를 들면, 영상에 등장하는 인물의 표정 부분이 그 자체로만 보면 디테일과
모든 면에서 부족함이 없어 보이지만, 지나치게 일정한 리듬으로 표정이 움직인다던지,
이런 아쉬운 부분들을 딱 해당 지점만 지정해서 텍스트로 바꾸고자 하는 명령을 내려서
의도하는 변경을 주는 기능을 이전보다 더 간편하고 강력하게 지원하는 식입니다.
이렇게 생성과 편집 모두에서 기존에 AI특유의 느낌을 완화 하고,
보다 더 자연스러운 영상이 될 수 있는 방향으로 AI영상 기업들의 서비스 방향이
옮겨가고 있는 추세이며, 어찌 보면 당연한 결과입니다.
사용자가 세부적으로 원하는 연출을 디테일하게(그리고 쉽게) 잡아 갈 수 있어야 하는 것은
상업적 목적에 있어서 상당히 중요하니까요.