‘제미나이 3.5 라이브 번역’을 통한 매끄럽고 자연스러운 음성 번역
20년 전 구글의 번역은 언어라는 과학을 사람과 사람을 연결하는 특별한 경험으로 바꾸기 위한 선구적인 머신러닝 실험 중 하나로 시작되었습니다. 그 실험은 이제 매달 수십억 명의 이용자를 위해 구글의 제품 전반에서 1조 개 이상의 단어가 번역되는 수준으로 눈부신 발전을 이루었습니다.
오늘 구글은 실시간 음성 대 음성(speech-to-speech) 번역을 위한 최신 오디오 모델인 ‘제미나이 3.5 라이브 번역(Gemini 3.5 Live Translate)’을 출시하며 다음 단계로 나아가고자 합니다.
이 모델은 70개 이상의 언어를 자동으로 감지하며, 화자의 억양, 속도, 고저(피치)를 그대로 유지하면서 부드럽고 자연스러운 번역 음성을 생성합니다. 화자가 말을 마칠 때까지 기다렸다가 응답하는 순차적(turn-by-turn) 시스템과 달리, 3.5 라이브 번역은 번역 결과의 수준을 높이기 위해 맥락을 파악할 때까지 기다리는 것과 화자의 대화 속도에 맞춰 즉시 번역하는 것 사이에서 균형을 맞추며 음성을 지속적으로 생성합니다. 어색하게 끊기는 일 없이 매끄러운 오디오를 제공하며, 대화가 진행되는 동안 화자보다 단 몇 초 뒤에서 번역을 이어갑니다.
제미나이 3.5 라이브 번역은 오늘부터 다음과 같은 구글 제품 전반에 순차적으로 적용됩니다.
- 개발자 대상: 제미나이 라이브 API (Gemini Live API) 및 구글 AI 스튜디오 (Google AI Studio)를 통해 퍼블릭 프리뷰로 제공
- 기업 대상: 이번 달부터 구글 미트(Google Meet)에서 프라이빗 프리뷰로 제공
- 일반 이용자 대상: 안드로이드(Android) 및 iOS의 구글 번역 앱을 통해 제공
‘3.5 라이브 번역’을 활용한 개발
‘제미나이 3.5 라이브 번역’은 스트리밍되는 음성을 실시간으로 처리해 언어 간의 더욱 원활한 소통을 가능하게 합니다. 이 모델은 설정을 수동으로 구성할 필요 없이 다양한 언어 입력을 처리할 수 있으며, 뛰어난 소음 차단 성능을 갖추고 있어 시끄럽고 예측하기 어려운 환경에서도 안정적으로 작동합니다. 이 기능을 활용해 다국어 통화, 회의, 수업, 방송 등의 실시간 통역을 원활하게 진행할 수 있습니다.
제미나이 라이브 API가 더빙과 동시 다국어 번역을 구현하는 모습을 확인해 보세요. 제미나이 쿡북(Gemini Cookbook)에서 데모를 시청하거나, 더 많은 예시 코드를 자세히 살펴볼 수 있습니다.
개발자는 제미나이 라이브 API(Gemini Live API)를 활용해 아고라(Agora), 피시잼(Fishjam), 라이브키트(LiveKit), 파이프캣(Pipecat), 비전에이전트(VisionAgents)와 같은 개발자 플랫폼으로 음성 번역 앱을 쉽게 구축하고 배포할 수 있습니다. 이러한 통합 기능이 복잡한 실시간 미디어 스트리밍 인프라를 처리해 주기 때문에, 개발자는 이용자 경험(UX)에만 집중할 수 있습니다.
구글의 파트너사인 그랩(Grab)은 픽업 시 운전기사와 여행자 간의 실시간에 가까운 다국어 소통을 지원하기 위해 이 모델을 테스트하고 있습니다. 그랩 이용자들은 매달 그랩을 통해 1,000만 건 이상의 음성 통화를 이용하고 있습니다.
그랩 외에도 CJ ENM, 라이브 키트 등 다른 기업들이 수준 높은 번역, 정확성, 그리고 낮은 지연을 중심으로 3.5 라이브 번역에 대한 긍정적인 의견을 나눴습니다.
화상 회의에서 3.5 라이브 번역 경험하기
구글 미트의 음성 번역(Speech translation)에 조만간 3.5 라이브 번역 기능이 적용돼 아래와 같은 특전을 경험할 수 있습니다.
- 기존 5개 언어에서 70개 이상의 언어로 지원 확대
- 기존에는 영어 중심의 번역만 가능했던 반면, 이제 한 회의에서 2,000개 이상의 언어 조합으로 대화 가능
- 음성 번역에 즉시 액세스할 수 있도록 인터페이스 업데이트
이 업데이트는 이번 달부터 일부 비즈니스용 구글 워크스페이스 (Google Workspace) 고객을 대상으로 프라이빗 프리뷰로 출시되며, 올해 말에 더욱 광범위하게 배포될 예정입니다.
구글 미트 참여자들이 실시간 음성 번역 기능을 활용해 영어, 중국어(만다린), 스웨덴어로 원활하게 소통하고 있는 모습
안드로이드 및 iOS 구글 번역 앱에서 3.5 라이브 번역 이용하기
이 모델은 전 세계 안드로이드 및 iOS의 구글 번역 앱에도 출시됩니다. 실시간 번역 기능을 사용할 때 헤드폰이나 이어폰을 연결하기만 하면, 70개 이상의 언어에서 화자의 톤을 그대로 반영하는 보다 매끄러운 번역을 경험할 수 있습니다.
안드로이드 이용자의 경우, 휴대폰 수화기를 통해 번역을 직접 들을 수 있는 3.5 라이브 번역 기반의 새로운 '듣기 모드'도 순차적으로 출시됩니다. 일반 통화를 할 때처럼 휴대폰을 귀에 대기만 하면 번역된 오디오가 바로 재생됩니다. 이 새로운 기능은 헤드폰이 없는 상황에서 다른 사람에게 들리지 않게 빠르게 번역된 내용을 듣고 싶을 때 유용합니다.
새로 도입된 듣기 모드로 휴대폰 수화기를 통해 실시간으로 영어를 동시 통역받는 모습.
신스ID 워터마크 적용
구글 모델이 생성하는 모든 오디오에는 신스ID(SynthID) 워터마크가 적용됩니다. 감지가 불가능할 정도로 미세한 워터마크는 오디오 출력에 직접 삽입되어 AI가 생성한 콘텐츠임을 식별할 수 있도록 하며 가짜 정보의 확산을 방지하는 데 도움을 줍니다. 안전 및 책임에 대한 구글의 접근 방식에 대한 자세한 내용은 모델 카드를 참조하세요.