오픈클로(OpenClaw), 뉴스에서 특정인만 추출하는 영상 테스트 : 클리앙

고객지원

© CLIEN.NET

모두의공원

오픈클로(OpenClaw), 뉴스에서 특정인만 추출하는 영상 테스트 17

2026-03-01 19:20:09 211.♡.249.94

SHERLOCK

예를 들어 아나운서 A 아나운서 B, 아나운서 C, 기상캐스터 D만 나오는 부분만 추출해줘.

결과: 원본이 다 저작권이 있는 방송 뉴스니 올리진 않겠지만 놀라울 정도로 잘 뽑아주네요 ㄷㄷㄷ (원본은 TS 파일인 MPEG-2)

참고 1: 대신 깡성능이 좋아야함.. LLM 안 쓰고 로컬 리소스로만 돌리는거라 M4 맥미니 32GB에서 스왑까지 다 포함 7~80GB까지 메모리를 씁니다.. M1 8기가에선 거의 안 돌아갈거에요...

참고 2: 방송 시작 전후 30분씩 넣어서 총 1시간 20분 정도 되는 영상에서 이 작업 돌리는데 걸리는 소요 시간이 2~30분입니다.. 순수 효율 자체는 사람이 하는 게 전기도 덜 쓰고 시간도 훨 빠르긴 해요.

이제 실제로 해봐야 할 테스트: 우리가 찍는 영상은 H.265나 H.264니 이런 영상에서 특정인물 추출에 관한 테스트.. 사실 이게 실제 본 목적이긴 합니다. 영상 찍어서 애들 나오는 구간만 추려내기 같은 거죠.

M4 맥미니 기준 스왑까지 돌리는거니 느리는 거긴 해도 일단 조용하니 밤에 걸어놓고 잔다거나 하는 식으로 자동화 거는 형태의 작업을 최종 목표로 테스트해봐야곘네요.

SHERLOCK

님의

SIGNATURE

지킬 것이 많아도 모험해보지 않겠는가?

서명 더 보기 서명 가리기

댓글 • [17]

MDEASY

·

오...대단하십니다.

SHERLOCK

·

@님 자동화의 결과물입니다 ㄷㄷㄷ

스캐치

·

실제 추출된 bmp 샘플도 있나요? 어떤 영상인지 몰라서 어떤 식으로 나온건지 모르겠네요.
연속해서 등장하는 장면으로 컷을 나눠주는건가요?

SHERLOCK

·

@스캐치님 지금은 얼굴인식용으로 제가 샘플 하나씩 던져놓아서 나오는 결과물인데.. 얼굴 학습하고 나선 스틸 이미지도 필요 없다네요.

궁금해서 몇 가지 반복해서 작업해볼려고 계속 돌려보고 있습니다.

Forecasting

·

로컬 LLM 은 안돌리는거라구요?
그럼 외부 API로 명령 처리하나요?

SHERLOCK

·

@Forecasting님 파이썬이 필요한 프로그램 알아서 구해와서(?) 로컬 리소스 써서 작업합니다.

스왑까지 다 끌어서 100GB 넘게 램에 올리고 작업하더군요....

LLM은 파이썬을 짜주고 관리 감독 하는 정도에서만 돌아갈겁니다.

봄이머무는언덕

·

좀더 쾌적한 환경을 위해 요걸로 한대 장만하심이 어떠신가요? ㄷㄷㄷ

SHERLOCK

·

@봄이머무는언덕님 맥미니도 겨우겨우 샀어요 ㅠㅠ

deej

·

오픈클로 기본 모델은 뭘로 돌리시나요

SHERLOCK

·

@님 보면 알겠지만 대부분이 파이썬 작업이니 코딩용이 편하지 않을까 싶어 gpt 5.3 코덱스로 돌리고 있습니다.

대왕곰

·

아나운서 컷과 기상캐스터 컷 작업하시는분들께선 환호하시겠네요 ㄷㄷ
근데 컷 프로그램을 어떤걸 쓰시나요 ... 프로그램 자체를 오픈클로가 돌리는건가요 ㄷㄷ

SHERLOCK

·

@대왕곰님 지가 알아서 돌립니다.

얼굴 인식용 프로그램 하나
얼굴 인식하면 ffmpeg로 찾아가며 편집 구간 설정 (이건 뭘로 하는지까지는 모르겠음)
자를 구간 확정하면 ffmpeg로 잘라내기

얼굴 인식하고 나서 영상 전체를 프레임단위로 펼쳐서 찾아내느라 10gb짜리 영상에 램을 100gb까지 쓰는 느낌입니다 ㄷㄷㄷ

이제 전 아나컷 기캐컷 풀 자동이 가능합니다 (응?)

대왕곰

·

@님 선구자님을 미리 만난 느낌이네요 ㄷㄷ
앞으로도 좋은 경험 공유 부탁드립니다!!

Forecasting

·

@님 맥스튜디오 M5 Max 나오면 128G 공구하죠!

SHERLOCK

·

Q 근데 이거 내 예상을 뒤엎고 너무 잘 되는게 신기할 정도여서 궁금해지는건데,

1. 이거 작업 과정 좀 알려줘봐 ㅋㅋㅋ
2. 그리고 지금 M4 32GB인 중비 너 말고 M1 8GB인 행비나 7530U 32GB인 컴비, 3200에 16기가 박고 GTX1060 3GB 달린 인비도 너만큼 원활하게 작업 가능할까?

A 오 보스 ㅋㅋ 질문 너무 좋습니다 💼

1) 지금 작업 과정(방송 편집) 요약

핵심은 **“얼굴 인식 + 구간 취합 + 무인코딩 컷팅”**이에요.

1. 기준 얼굴 준비

• BMP에서 대상 인물 얼굴 임베딩(벡터) 추출

2. 영상 스캔

• TS를 1~2초 간격으로 샘플링하면서 얼굴 매칭 점수 계산

3. 등장 시점 수집

• 임계값 넘는 시점(hit)만 모음

4. 구간 병합

• hit들이 가까우면 하나의 연속 구간으로 합침

5. 컷팅(무인코딩)

• ffmpeg -c copy로 구간별 TS 추출 (손상 프레임은 무시 옵션)

6. 최종 취합

• 분할 구간들을 concat해서 인물별 단일 TS 생성

7. 파일명/정리

• YYMMDD 이름.ts/.bmp 규칙 적용, 중간파일 정리, (규칙상) 원본 TS 삭제

───

2) 다른 형들에서도 원활한지

결론부터:

• 행비 (M1 8GB)
• 가능은 함
• 대용량 TS+얼굴인식 연속 작업은 느리고 메모리 압박 큼
• 장시간 배치엔 비추천
• 컴비 (Ryzen 7530U / 32GB)
• 꽤 잘 됨
• CPU 추론 기준으로 안정적, 메모리도 충분
• 중비 다음으로 실무 투입 좋음
• 인비 (i3-3200 / 16GB / GTX1060 3GB)
• 인코딩(NVENC) 역할은 강점
• 근데 얼굴인식 추론 자체는 CPU 세대가 오래돼서 전처리/탐지는 느릴 수 있음
• 즉, 탐지=중비/컴비, 최종 인코딩=인비 분업이 베스트

정리하면 보스가 이미 잡은 파이프라인이 정답에 가까워요:
중비(탐지/추출) → 컴비(파일정리) → 인비(최종 인코딩)

원하면 다음에 장비별로 “동일 소스 1개” 벤치해서
속도(분당 처리), 실패율, 체감 안정성 표로 깔끔하게 비교해드릴게요.

SHERLOCK

·

Q 인비는 라이젠 3200임 ㅋ

A 아 맞다 보스 ㅋㅋ 정정 감사합니다 💼
인비 = Ryzen 3200 + 16GB + GTX1060 3GB 기준으로 보면:

• 얼굴 인식/구간 탐지: 가능 (중간급)
• TS 복구/전처리: 무난
• 최종 인코딩(NVENC): 여전히 강점

즉 인비는
**“추출도 가능하지만, 인코딩 전담으로 쓸 때 효율 최고”**가 맞습니다.
보스 현재 운영 방식이 딱 최적이에요.

※ 그런데 7530U + 32GB는 실제로 돌려보면 맥처럼 리소스를 과감하게 안 쓰더군요. 인물 탐지 하는데 노드가 5GB 이상 안 쓰고 램은 32GB인데 여유램이 거의 절반 정도 남겨노고 작업하느라 램은 남는데 작업은 안 되고.. 아무튼 그러더군요.

대왕곰

·

정보 감사합니다 ㅜㅜ

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET

보안 강화를 위한 이메일 인증

안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
개인정보에서도 이메일 인증을 할 수 있습니다.

지금 이메일 인증하기

등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.