gpt-realtime-translate 很好用,我跑完了 tuwa 接入这个模型的翻译 agent e2e 测试,优势很明显,这是真正的同声传译!弱点也很明显,第一不能自定义语音,语音是 gpt-realtime-translate 自己「模仿」(dynamic voice adaptation)的,不确定内部是何种逻辑。另外,同声传译因为不像 VAD-based 所以有的时候容易翻译错(因为他不会根据上下文语音段落整合翻译)但真的太快了,还好 tuwa 早就支持了多语音模型路由,我测试完后将全面把翻译 agent 切换到 gpt-realtime-translate
显示更多