谷歌发布Gemini 3.5实时语音翻译支持70余种语言

谷歌于2026年6月9日宣布推出Gemini 3.5 Live Translate，这是一款支持超过70种语言的实时语音对话翻译AI模型，具备自动语言识别功能 ^{[1, 2, 3, 4]}。该模型能够保留说话者的原始语调、语速和音高，使翻译后的声音更加自然流畅 ^{[1, 2, 3, 4]}。

Gemini 3.5 Live Translate采用连续流音频处理技术，确保生成的翻译仅比原始语音延迟几秒钟 ^{[1, 3, 4]}。同时，它还能在嘈杂环境中有效过滤背景噪音，提升对话清晰度 ^{[1, 4]}。

该技术正逐步整合进谷歌生态系统，包括Google Translate应用、Google Meet会议软件以及面向开发者的Gemini Live API接口 ^{[1, 3, 4]}。谷歌计划自2026年6月开始，允许Google Meet企业版用户体验支持2000多种语言对的Gemini 3.5 Live Translate服务 ^[3]。

Android和iOS平台的Google Translate用户更新后可启用实时翻译模式。安卓版本新增了“聆听模式”，用户可以通过听筒直接听到翻译结果，方便私密交流 ^[3]。

为了防止深度伪造音频滥用，谷歌还为Gemini 3.5生成的语音内置了SynthID数字水印技术，用于音频来源追踪和验证 ^{[3, 4]}。

实时翻译技术在实际应用中已展开测试。东南亚叫车平台Grab利用Gemini 3.5帮助司机与乘客跨语言沟通，月通话量超千万人次 ^[4]。此外，谷歌也下调了Gemini AI订阅服务价格，并捆绑了YouTube Premium会员优惠，推动用户采用其生态产品 ^[3]。

相关图片

来源