谷歌憋了个大招,这次把语音的"控制权"交给了开发者
语音合成这件事,说起来很简单:输入文字,输出声音。但做好很难。
以前的TTS产品,生成出来的声音有个通病:听起来太"平"。语气平平的,节奏统一的,情绪几乎没有。你一听就知道这是机器在说,不是在"表达"。对于有声读物、播客这类需要情感的内容来说,这个缺点几乎是致命的。
谷歌这次在Gemini 3.1系列里推出的Gemini-TTS,想做的一件事就是解决这个问题。
工具地址:Gemini官网

这次不一样在哪?
最大的突破是:把语音的控制权还给了开发者。
Gemini-TTS支持通过提示词直接调控语音的情感、节奏和风格。你可以用自然语言描述你要什么样的声音——
“旁白需要低沉庄重,像纪录片配音”;
“对话要轻松自然,像朋友在聊天”;
“停顿落在这里,情绪逐渐推向高潮”;
这些描述,Gemini-TTS能理解并生成对应的语音输出。
以往要精细控制TTS的输出,需要调各种参数——语速、音调、停顿间隔。普通人根本不知道怎么配,配出来的效果也参差不齐。Gemini-TTS把这事变成了"说你要什么"——你描述得越精确,生成的结果越接近你的想象。
多语言:约70种,一个API搞定
语言支持方面,Gemini-TTS覆盖约70种语言,中文普通话、英语、西班牙语、日语等主流语种都在列。
更贴心的是,它能自动识别输入文本的语种,不需要开发者手动标注。这意味着什么?做多语言内容的企业,以前需要针对每个语种单独对接API、单独调试。Gemini-TTS一套API就能搞定所有语种——有声读物要出中英日三语版本?一个接口,一个配置,全搞定。
对于有声读物、播客、客服机器人、教育应用这些需要大量语音内容的场景来说,这个效率提升是直接转化为成本的。
跟系列内其他模型怎么协同?
谷歌还特别强调了Gemini-TTS跟同系列音频模型的协同能力。
在实时对话、语音翻译和多模态交互场景中,系统可以在保持低延迟的同时,通过文本提示和音频标记对语音输出进行精细调控。翻译成人话就是:在电话、会议、导航这些"需要快速反应"的场景里,AI输出的语音能更接近真实人类的表达方式,而不是那种一听就是机器的"平板腔"。
我的判断
语音这事儿,谷歌这两年其实一直在布局,但声量不如语言模型那么大。Gemini-TTS的发布,说明语音在谷歌AI战略里的优先级在往上走。
从行业角度看,各家大厂在语言模型、图像生成上卷得很凶,但在语音领域的竞争烈度还没那么高。谷歌这次带着"迄今最富表现力"的定位入场,加上Gemini系列已有的生态优势,后续的冲击力不容小觑。
对于需要语音能力的企业来说,现在是个值得关注的时间节点——各家方案都在快速迭代,早点测试、早点落地,就能早点形成竞争力。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










