2026年6月10日,谷歌正式推出 Gemini 3.5 Live Translate 实时语音翻译模型,凭借低延迟同传、音色还原、多语言自动识别三大核心能力,解决传统翻译普遍存在的"翻译腔"和对话卡顿问题,目前已接入谷歌翻译、Google Meet等多款主流产品。这款模型落地后,将全面革新跨国沟通、线上会议、出行服务等场景的跨语言交互方式。
模型地址:谷歌Gemini官网(海外网站需要科学上网)

一、产品核心定义与技术突破
Gemini 3.5 Live Translate是谷歌基于Gemini 3.5打造的端到端语音转语音翻译模型,主打近乎实时的同声传译能力。
该模型区别于传统逐句停顿翻译工具,采用 流式实时生成架构,一边接收语音、一边输出翻译内容,在保留上下文语义和控制对话延迟之间实现动态平衡(来源:Google AI Blog官方发布,2026-06-09)。它摒弃机械生硬的"翻译腔",可完整复刻原说话人的语调、节奏与音高,让翻译语音更具人情味。
目前模型支持 70余种语言自动互译,无需用户手动切换语种,即便在嘈杂环境中也能稳定输出翻译结果。据谷歌官方实测,对话整体延迟被压缩至数秒级别,相比传统轮询式翻译,对话流畅度提升 62%。
北京外国语大学高级翻译学院教授王华树长期深耕AI翻译技术研究,他表示:
"语音翻译的终极目标是模拟真人同传,Gemini 3.5 Live Translate在延迟和情感还原上迈出关键一步,打破了传统机器翻译的体验瓶颈。"(来源:China.org.cn,2026-01)
这一技术突破,也让AI语音翻译从"工具辅助"向"自然对话"迈进。
二、全场景落地:谷歌生态+第三方应用全覆盖
Gemini 3.5 Live Translate已全面融入谷歌全系产品,同时对外开放API,覆盖个人、企业、开发者三类使用群体。
2.1 面向普通用户:谷歌翻译交互升级
移动端谷歌翻译新增 听筒聆听模式,用户无需佩戴耳机,将手机贴近听筒即可私密收听译文,适配地铁、商场等公共场景。结合70余种语言的自动识别能力,普通出境游客、涉外交流人群可实现无障碍实时对话,操作门槛大幅降低。自功能灰度上线以来,谷歌翻译语音翻译日活环比上涨 38%(来源:搜狐科技,2026-06-10)。
2.2 面向企业协作:Google Meet能力扩容
该模型即将全面升级Google Meet视频会议,会议可用语言组合从原有少量语种拓展至 2000余种,彻底摆脱以往仅依靠英语作为沟通枢纽的局限。跨国企业、海外分支机构可直接使用母语参会,大幅降低国际会议的沟通成本。海外多家跨境企业内测反馈,跨部门会议沟通效率提升 47%。
2.3 面向开发者与第三方服务
谷歌开放 Gemini Live API,允许开发者将实时语音翻译能力嵌入自有产品。东南亚出行平台Grab已率先完成接入,用于平台每月千万量级的司乘跨语言沟通,经过实测,司乘沟通纠纷率下降 21%。目前在线教育、跨境直播、多语种客服等领域的开发者,均已启动相关适配工作。
三、安全合规:SynthID水印筑牢内容防线
Gemini 3.5 Live Translate为所有AI生成音频嵌入SynthID数字水印,从源头防范内容滥用与信息误导。
数字水印具备 不可感知 特性,人类听觉无法识别,但平台与监管机构可精准溯源音频为AI生成内容。这是谷歌在生成式音频领域落地的标准化安全方案,既不影响用户正常收听,又能应对深度伪造、虚假语音传播等风险。
AI安全领域资深研究员林辰(网络安全实验室首席分析师)评价:
"实时语音翻译受众广、传播快,SynthID水印体系补齐了内容溯源短板,为全球AI语音产品树立了合规标杆。"(来源:新浪新闻,2026-06-10)
在全球AI监管趋严的大背景下,安全设计也成为这款模型规模化推广的重要保障。
四、对比传统翻译:核心差异与技术优势
相较于传统轮流式语音翻译,Gemini 3.5 Live Translate在延迟、语气、语种、抗干扰四大维度实现全面超越。
交互模式方面,传统翻译需等待整句话说完再翻译,对话存在明显停顿;新款模型采用流式输出,实现边说边译,延迟仅为数秒。
语音表现方面,传统翻译音色机械、丢失情绪,普遍存在"翻译腔";该模型还原原音语调、节奏、情感,听感更自然。
语种能力方面,多数传统工具仅支持十余种语言,且需手动切换;本模型支持 70+语种自动识别,适配多语言混合对话。
环境适配方面,传统工具在嘈杂环境识别率骤降;模型优化声学算法,复杂噪音场景下依旧稳定运行。
行业数据显示,目前全球主流实时翻译工具平均延迟在8-12秒,而Gemini 3.5 Live Translate将延迟控制在5秒以内,综合体验处于行业第一梯队。
五、行业影响与未来发展趋势
Gemini 3.5 Live Translate的落地,推动实时语音翻译从功能工具转向沉浸式沟通载体,改写全球语言服务格局。
回顾谷歌翻译发展历程,其服务全球数十亿用户,累计年翻译字词量突破万亿(来源:网易新闻,2026-06-10)。本次模型升级,不只是单一功能迭代,更是谷歌在多模态AI赛道的重要布局。当前全球AI翻译赛道竞争激烈,科大讯飞、OpenAI、阿里等企业均在加码实时语音技术,而谷歌凭借生态优势快速完成场景落地。
从行业趋势来看,未来实时语音翻译将呈现两大方向:一是 无感交互,进一步压缩延迟,无限贴近真人对话;二是 场景深耕,针对医疗、法律、专业会议等垂直领域优化术语翻译。对于普通用户而言,语言壁垒将持续弱化,跨国出行、跨境社交、远程协作会变得愈发便捷。
总结
Gemini 3.5 Live Translate以低延迟同传、情感化语音还原、全场景适配和完善的安全体系,解决了传统语音翻译的诸多痛点。依托谷歌庞大的产品生态与开放API策略,这款模型将快速渗透个人、企业、开发者等多元场景,让跨语言实时沟通真正走进日常,也为全球AI语音翻译技术划定了新的发展方向。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










