E2E Voice 도 감안한 결정이다는데 좀 공감이 가네요.
엄청난 Voice 데이터 습득을 위해서 차량에 통합 만큼 효과적인건 드물듯도 하고요.🤔
글로벌하게 릴리즈하면 AI 데이터센터는 쉴 틈이 없겠네요.
https://twitter.com/seti_park/status/1944795772127703431
E2E Voice 도 감안한 결정이다는데 좀 공감이 가네요.
엄청난 Voice 데이터 습득을 위해서 차량에 통합 만큼 효과적인건 드물듯도 하고요.🤔
글로벌하게 릴리즈하면 AI 데이터센터는 쉴 틈이 없겠네요.
https://twitter.com/seti_park/status/1944795772127703431
저도 잘 모르지만 대략 링크 참고 하시면 어떨까 합니다.😢
https://devmin67.tistory.com/m/33#:~:text=End%2Dto%2DEnd%20%EB%94%A5%EB%9F%AC%EB%8B%9D,%EC%9E%90%EB%8F%99%EC%9C%BC%EB%A1%9C%20%EC%B2%98%EB%A6%AC%ED%95%98%EA%B2%8C%20%ED%95%A9%EB%8B%88%EB%8B%A4.
저 글쓴이의 예측에 100% 동의하는것은 아니지만 (특히 개인정보 타사이전 이슈로 쉽지 않다고 봅니다),
E2E는 기능의 단위모듈을 쪼개지 않고 입력부터 출력까지 하나의 신경망 모델로 처리하는 방법을 말합니다.
예전이라면 음성->텍스트->텍스트처리 LLM->텍스트->TTS음성출력 이런 과정으로 텍스트를 기준으로 응답이 생성되고 출력되었다면, E2E는 음성->멀티모달모델->음성 출력 이렇게 되는거죠.
이 방식이 되면 음성에 포함된 억양의 뉘앙스까지 활용될 수 있습니다.
참 자알~ 했다. 이런걸 부정적 표현으로 인식할 수 있게 되죠.