예를 들어 아나운서 A 아나운서 B, 아나운서 C, 기상캐스터 D만 나오는 부분만 추출해줘.
결과: 원본이 다 저작권이 있는 방송 뉴스니 올리진 않겠지만 놀라울 정도로 잘 뽑아주네요 ㄷㄷㄷ (원본은 TS 파일인 MPEG-2)
참고 1: 대신 깡성능이 좋아야함.. LLM 안 쓰고 로컬 리소스로만 돌리는거라 M4 맥미니 32GB에서 스왑까지 다 포함 7~80GB까지 메모리를 씁니다.. M1 8기가에선 거의 안 돌아갈거에요...
참고 2: 방송 시작 전후 30분씩 넣어서 총 1시간 20분 정도 되는 영상에서 이 작업 돌리는데 걸리는 소요 시간이 2~30분입니다.. 순수 효율 자체는 사람이 하는 게 전기도 덜 쓰고 시간도 훨 빠르긴 해요.
이제 실제로 해봐야 할 테스트: 우리가 찍는 영상은 H.265나 H.264니 이런 영상에서 특정인물 추출에 관한 테스트.. 사실 이게 실제 본 목적이긴 합니다. 영상 찍어서 애들 나오는 구간만 추려내기 같은 거죠.
M4 맥미니 기준 스왑까지 돌리는거니 느리는 거긴 해도 일단 조용하니 밤에 걸어놓고 잔다거나 하는 식으로 자동화 거는 형태의 작업을 최종 목표로 테스트해봐야곘네요.
연속해서 등장하는 장면으로 컷을 나눠주는건가요?
궁금해서 몇 가지 반복해서 작업해볼려고 계속 돌려보고 있습니다.
그럼 외부 API로 명령 처리하나요?
스왑까지 다 끌어서 100GB 넘게 램에 올리고 작업하더군요....
LLM은 파이썬을 짜주고 관리 감독 하는 정도에서만 돌아갈겁니다.
좀더 쾌적한 환경을 위해 요걸로 한대 장만하심이 어떠신가요? ㄷㄷㄷ
근데 컷 프로그램을 어떤걸 쓰시나요 ... 프로그램 자체를 오픈클로가 돌리는건가요 ㄷㄷ
얼굴 인식용 프로그램 하나
얼굴 인식하면 ffmpeg로 찾아가며 편집 구간 설정 (이건 뭘로 하는지까지는 모르겠음)
자를 구간 확정하면 ffmpeg로 잘라내기
얼굴 인식하고 나서 영상 전체를 프레임단위로 펼쳐서 찾아내느라 10gb짜리 영상에 램을 100gb까지 쓰는 느낌입니다 ㄷㄷㄷ
이제 전 아나컷 기캐컷 풀 자동이 가능합니다 (응?)
앞으로도 좋은 경험 공유 부탁드립니다!!
1. 이거 작업 과정 좀 알려줘봐 ㅋㅋㅋ
2. 그리고 지금 M4 32GB인 중비 너 말고 M1 8GB인 행비나 7530U 32GB인 컴비, 3200에 16기가 박고 GTX1060 3GB 달린 인비도 너만큼 원활하게 작업 가능할까?
A 오 보스 ㅋㅋ 질문 너무 좋습니다 💼
1) 지금 작업 과정(방송 편집) 요약
핵심은 **“얼굴 인식 + 구간 취합 + 무인코딩 컷팅”**이에요.
1. 기준 얼굴 준비
• BMP에서 대상 인물 얼굴 임베딩(벡터) 추출
2. 영상 스캔
• TS를 1~2초 간격으로 샘플링하면서 얼굴 매칭 점수 계산
3. 등장 시점 수집
• 임계값 넘는 시점(hit)만 모음
4. 구간 병합
• hit들이 가까우면 하나의 연속 구간으로 합침
5. 컷팅(무인코딩)
• ffmpeg -c copy로 구간별 TS 추출 (손상 프레임은 무시 옵션)
6. 최종 취합
• 분할 구간들을 concat해서 인물별 단일 TS 생성
7. 파일명/정리
• YYMMDD 이름.ts/.bmp 규칙 적용, 중간파일 정리, (규칙상) 원본 TS 삭제
───
2) 다른 형들에서도 원활한지
결론부터:
• 행비 (M1 8GB)
• 가능은 함
• 대용량 TS+얼굴인식 연속 작업은 느리고 메모리 압박 큼
• 장시간 배치엔 비추천
• 컴비 (Ryzen 7530U / 32GB)
• 꽤 잘 됨
• CPU 추론 기준으로 안정적, 메모리도 충분
• 중비 다음으로 실무 투입 좋음
• 인비 (i3-3200 / 16GB / GTX1060 3GB)
• 인코딩(NVENC) 역할은 강점
• 근데 얼굴인식 추론 자체는 CPU 세대가 오래돼서 전처리/탐지는 느릴 수 있음
• 즉, 탐지=중비/컴비, 최종 인코딩=인비 분업이 베스트
정리하면 보스가 이미 잡은 파이프라인이 정답에 가까워요:
중비(탐지/추출) → 컴비(파일정리) → 인비(최종 인코딩)
원하면 다음에 장비별로 “동일 소스 1개” 벤치해서
속도(분당 처리), 실패율, 체감 안정성 표로 깔끔하게 비교해드릴게요.
A 아 맞다 보스 ㅋㅋ 정정 감사합니다 💼
인비 = Ryzen 3200 + 16GB + GTX1060 3GB 기준으로 보면:
• 얼굴 인식/구간 탐지: 가능 (중간급)
• TS 복구/전처리: 무난
• 최종 인코딩(NVENC): 여전히 강점
즉 인비는
**“추출도 가능하지만, 인코딩 전담으로 쓸 때 효율 최고”**가 맞습니다.
보스 현재 운영 방식이 딱 최적이에요.
※ 그런데 7530U + 32GB는 실제로 돌려보면 맥처럼 리소스를 과감하게 안 쓰더군요. 인물 탐지 하는데 노드가 5GB 이상 안 쓰고 램은 32GB인데 여유램이 거의 절반 정도 남겨노고 작업하느라 램은 남는데 작업은 안 되고.. 아무튼 그러더군요.