谷歌于2026年6月9日宣布推出Gemini 3.5 Live Translate,这是一款支持超过70种语言的实时语音对话翻译AI模型,具备自动语言识别功能 [1, 2, 3, 4]。该模型能够保留说话者的原始语调、语速和音高,使翻译后的声音更加自然流畅 [1, 2, 3, 4]。
Gemini 3.5 Live Translate采用连续流音频处理技术,确保生成的翻译仅比原始语音延迟几秒钟 [1, 3, 4]。同时,它还能在嘈杂环境中有效过滤背景噪音,提升对话清晰度 [1, 4]。
该技术正逐步整合进谷歌生态系统,包括Google Translate应用、Google Meet会议软件以及面向开发者的Gemini Live API接口 [1, 3, 4]。谷歌计划自2026年6月开始,允许Google Meet企业版用户体验支持2000多种语言对的Gemini 3.5 Live Translate服务 [3]。
Android和iOS平台的Google Translate用户更新后可启用实时翻译模式。安卓版本新增了“聆听模式”,用户可以通过听筒直接听到翻译结果,方便私密交流 [3]。
为了防止深度伪造音频滥用,谷歌还为Gemini 3.5生成的语音内置了SynthID数字水印技术,用于音频来源追踪和验证 [3, 4]。
实时翻译技术在实际应用中已展开测试。东南亚叫车平台Grab利用Gemini 3.5帮助司机与乘客跨语言沟通,月通话量超千万人次 [4]。此外,谷歌也下调了Gemini AI订阅服务价格,并捆绑了YouTube Premium会员优惠,推动用户采用其生态产品 [3]。