얼마전 오픈소스로 풀린 LTX를 로컬 서버로 돌려서 구현한 동영상을 구글 Veo 결과물과 비교해보았습니다. 같은 프롬프트와 start frame를 넣었고요. 결과는 다음과 같습니다.
LTX-2
전반적 구도나 빛, 카메라 포커싱, 배경 건축등은 괜찮게 나온듯 합니다.
거슬리는점은 댕기머리 꼬리가 따로 노는것과 한복 옷감 재질도 두꺼운 코튼 재질의 느낌이 눈에 들어오네요.
문제는 제 시스템에 vram이 적어서 lowvram distlled 모델을 쓰고도 거의 6시간이 걸렸습니다. ㄷㄷ
얼굴 등에서 디테일 표현과 뒤를 돌아보라는 카메라 프롬프트가 반영 안된게 아쉽고 배경음악도 로컬라이징이 안된 신디 음악같이 나오네요. 한국 컨텐츠 훈련이 왼전히는 안된듯 해보입니다.
만약 그래픽 카드를 업글하고 15분 안쪽으로 생성이 된다면 fps등의 셋팅을 바꿔가며 가지고 놀기에 좋은 구성인것 같습니다.
Veo3 + Flow
약 10초도 안걸린것 같습니다. ㄷㄷ 빛과 재질의 표현, 모델의 행동, 건축 배경, 음악까지 너무 대단하게 나오네요.
Flow라는 플랫폼의 제약이 있어서 해상도나 fps, 더 구체적인 셋팅을 커스텀하기에 한계가 있지만, 1분정도 투자한 결과물이라고는 믿기 힘든 비디오 퀄이 나옵니다.
경험상 veo 3 카메라 컨트롤이 쉽지 않아서 매번 주사위를 던지는 느낌인데, 컨셉용으로는 비디오는 기깔나게 뽑아주는것 같습니다.
아래꺼는 천의 펄럭임이 멋지구요.
결국 컴퓨팅 파워에서 오는 한계 아닌가 싶어요.
아 최초에 360p 로 만들고 타깃 해상도로 업스케일링 하는 구조인가 보군요. 어쩐지 720p 로 뽑아도 해상도가 이상하다 싶었습니다.
A cinematic, slow-motion tracking shot from behind a joyful young woman wearing a vibrant, pastel-colored Hanbok (traditional Korean dress). She is running playfully through the open wooden corridors and stone courtyards of a sun-drenched Hanok village. The camera chases her closely from a low angle, capturing the rhythmic movement of her silk skirts billowing in the wind. She glances back over her shoulder with a radiant, infectious laugh, her hair adorned with a traditional binyeo hairpin.