https://humanaigc.github.io/emote-portrait-alive/
알리바바 그룹에서 공개한 기술입니다.
사람이 노래를 부르거나 얘기하는 원본동영상을 바탕으로 단 1장의 레퍼런스 이미지를 합성해 동영상을 만들어준다고 합니다.
지금도 딥페이크를 비롯해서 AI가 동영상을 합성해주는 기술은 많이 있습니다만
이 모델은 1장의 레퍼런스 이미지만 이용해서 저런 정신나간 수준의 동영상을 만든다는게 놀랍고 두렵네요.
게다가 알리바바에서 만들었다는 것도 좀 걸리는 부분입니다.
레딧의 코멘트를 보니 알리바바에서 만든 AI 관련 기술은 거의 오픈소스로 공개가 안 된다고 합니다.
향후 이 기술이 중국에서 어떻게 활용될지가 두려워집니다.
아무튼 따라가기 힘든 수준으로 가는 AI 기술입니다.
현재 방식으로 저정도 영상을 만드려면 gpu를 얼만큼 갈궈야 하나 무섭습니다.
기업이나 거대 단체의 전유물로 대중을 통제하는데 사용되겠죠. 지금 시대에 소비자로 예속된다는 건 정말 꼼짝달싹 못한단 얘기로 발전할 거 같아요. 중국이 국가 단위로 벌이고 있는 프로젝트가 전세계의 미래가 되겠어요. 말씀하신 AI관련 고용된 전문가들의 수가 그래봐야 얼마나 될지, 말은 크리에이터, 디자이너, 기획자 이렇지만 결국 AI의 결과물을 소비하는 방식의 차이 아닌가 합니다. 한줌의 AI 시다바리 전문가와 무늬만 크리에이터인 다수의 소비자의 형세가 되지 싶어요.