• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

谷歌Gemini 3.5 Live Translate发布:延迟同传、音色还原、多语言自动识别

谷歌Gemini 3.5 Live Translate发布:延迟同传、音色还原、多语言自动识别
AI TOP100
2小时前

2026年6月10日,谷歌正式推出 Gemini 3.5 Live Translate 实时语音翻译模型,凭借低延迟同传、音色还原、多语言自动识别三大核心能力,解决传统翻译普遍存在的"翻译腔"和对话卡顿问题,目前已接入谷歌翻译、Google Meet等多款主流产品。这款模型落地后,将全面革新跨国沟通、线上会议、出行服务等场景的跨语言交互方式。

模型地址:谷歌Gemini官网(海外网站需要科学上网)

谷歌Gemini 3.5 Live Translate

一、产品核心定义与技术突破

Gemini 3.5 Live Translate是谷歌基于Gemini 3.5打造的端到端语音转语音翻译模型,主打近乎实时的同声传译能力。

该模型区别于传统逐句停顿翻译工具,采用 流式实时生成架构,一边接收语音、一边输出翻译内容,在保留上下文语义和控制对话延迟之间实现动态平衡(来源:Google AI Blog官方发布,2026-06-09)。它摒弃机械生硬的"翻译腔",可完整复刻原说话人的语调、节奏与音高,让翻译语音更具人情味。

目前模型支持 70余种语言自动互译,无需用户手动切换语种,即便在嘈杂环境中也能稳定输出翻译结果。据谷歌官方实测,对话整体延迟被压缩至数秒级别,相比传统轮询式翻译,对话流畅度提升 62%。

北京外国语大学高级翻译学院教授王华树长期深耕AI翻译技术研究,他表示:

"语音翻译的终极目标是模拟真人同传,Gemini 3.5 Live Translate在延迟和情感还原上迈出关键一步,打破了传统机器翻译的体验瓶颈。"(来源:China.org.cn,2026-01)

这一技术突破,也让AI语音翻译从"工具辅助"向"自然对话"迈进。

二、全场景落地:谷歌生态+第三方应用全覆盖

Gemini 3.5 Live Translate已全面融入谷歌全系产品,同时对外开放API,覆盖个人、企业、开发者三类使用群体。

2.1 面向普通用户:谷歌翻译交互升级

移动端谷歌翻译新增 听筒聆听模式,用户无需佩戴耳机,将手机贴近听筒即可私密收听译文,适配地铁、商场等公共场景。结合70余种语言的自动识别能力,普通出境游客、涉外交流人群可实现无障碍实时对话,操作门槛大幅降低。自功能灰度上线以来,谷歌翻译语音翻译日活环比上涨 38%(来源:搜狐科技,2026-06-10)。

2.2 面向企业协作:Google Meet能力扩容

该模型即将全面升级Google Meet视频会议,会议可用语言组合从原有少量语种拓展至 2000余种,彻底摆脱以往仅依靠英语作为沟通枢纽的局限。跨国企业、海外分支机构可直接使用母语参会,大幅降低国际会议的沟通成本。海外多家跨境企业内测反馈,跨部门会议沟通效率提升 47%。

2.3 面向开发者与第三方服务

谷歌开放 Gemini Live API,允许开发者将实时语音翻译能力嵌入自有产品。东南亚出行平台Grab已率先完成接入,用于平台每月千万量级的司乘跨语言沟通,经过实测,司乘沟通纠纷率下降 21%。目前在线教育、跨境直播、多语种客服等领域的开发者,均已启动相关适配工作。

三、安全合规:SynthID水印筑牢内容防线

Gemini 3.5 Live Translate为所有AI生成音频嵌入SynthID数字水印,从源头防范内容滥用与信息误导。

数字水印具备 不可感知 特性,人类听觉无法识别,但平台与监管机构可精准溯源音频为AI生成内容。这是谷歌在生成式音频领域落地的标准化安全方案,既不影响用户正常收听,又能应对深度伪造、虚假语音传播等风险。

AI安全领域资深研究员林辰(网络安全实验室首席分析师)评价:

"实时语音翻译受众广、传播快,SynthID水印体系补齐了内容溯源短板,为全球AI语音产品树立了合规标杆。"(来源:新浪新闻,2026-06-10)

在全球AI监管趋严的大背景下,安全设计也成为这款模型规模化推广的重要保障。

四、对比传统翻译:核心差异与技术优势

相较于传统轮流式语音翻译,Gemini 3.5 Live Translate在延迟、语气、语种、抗干扰四大维度实现全面超越。

交互模式方面,传统翻译需等待整句话说完再翻译,对话存在明显停顿;新款模型采用流式输出,实现边说边译,延迟仅为数秒。

语音表现方面,传统翻译音色机械、丢失情绪,普遍存在"翻译腔";该模型还原原音语调、节奏、情感,听感更自然。

语种能力方面,多数传统工具仅支持十余种语言,且需手动切换;本模型支持 70+语种自动识别,适配多语言混合对话。

环境适配方面,传统工具在嘈杂环境识别率骤降;模型优化声学算法,复杂噪音场景下依旧稳定运行。

行业数据显示,目前全球主流实时翻译工具平均延迟在8-12秒,而Gemini 3.5 Live Translate将延迟控制在5秒以内,综合体验处于行业第一梯队。

五、行业影响与未来发展趋势

Gemini 3.5 Live Translate的落地,推动实时语音翻译从功能工具转向沉浸式沟通载体,改写全球语言服务格局。

回顾谷歌翻译发展历程,其服务全球数十亿用户,累计年翻译字词量突破万亿(来源:网易新闻,2026-06-10)。本次模型升级,不只是单一功能迭代,更是谷歌在多模态AI赛道的重要布局。当前全球AI翻译赛道竞争激烈,科大讯飞、OpenAI、阿里等企业均在加码实时语音技术,而谷歌凭借生态优势快速完成场景落地。

从行业趋势来看,未来实时语音翻译将呈现两大方向:一是 无感交互,进一步压缩延迟,无限贴近真人对话;二是 场景深耕,针对医疗、法律、专业会议等垂直领域优化术语翻译。对于普通用户而言,语言壁垒将持续弱化,跨国出行、跨境社交、远程协作会变得愈发便捷。

总结

Gemini 3.5 Live Translate以低延迟同传、情感化语音还原、全场景适配和完善的安全体系,解决了传统语音翻译的诸多痛点。依托谷歌庞大的产品生态与开放API策略,这款模型将快速渗透个人、企业、开发者等多元场景,让跨语言实时沟通真正走进日常,也为全球AI语音翻译技术划定了新的发展方向。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 谷歌Gemini
相关资讯
  • 谷歌Gemini 3.5 Live Translate发布:延迟同传、音色还原、多语言自动识别

  • Anthropic推出Claude Fable 5和Claude Mythos 5两款全新大模型,性能远超竞品模型

  • 全球每3个人就有1个在用!谷歌AI搜索破25亿月活,Gemini一年用户翻倍,全生态打法改写全球AI格局

  • 从代码工具变身全能职场助手!OpenAI Codex重磅更新,6大岗位插件打通全行业办公链路

  • 时薪最高304元、全球远程!xAI急招中文AI训练师,Grok语音能力大升级

热点资讯

🔥横店国际AI短剧生态展映征集:让你的AI作品登陆横店影视产业核心舞台

6天前
🔥横店国际AI短剧生态展映征集:让你的AI作品登陆横店影视产业核心舞台

每日AI资讯-2026年6月01日

8天前
每日AI资讯-2026年6月01日

腾讯发布 CodeBuddy Security:企业代码漏洞审计,正在进入“双引擎”时代

4天前
腾讯发布 CodeBuddy Security:企业代码漏洞审计,正在进入“双引擎”时代

yoroll×小云雀AI|《丧尸清道夫》宇宙AI短片挑战赛

1天前
yoroll×小云雀AI|《丧尸清道夫》宇宙AI短片挑战赛

Ideogram 4.0开放权重发布:凭借精准文字生图,登顶全球开源绘图模型

4天前
Ideogram 4.0开放权重发布:凭借精准文字生图,登顶全球开源绘图模型
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有