谷歌Gemini发布最强TTS模型，用嘴"描述"就能控制语音情感-AITOP100,AI资讯

谷歌憋了个大招，这次把语音的"控制权"交给了开发者

语音合成这件事，说起来很简单：输入文字，输出声音。但做好很难。

以前的TTS产品，生成出来的声音有个通病：听起来太"平"。语气平平的，节奏统一的，情绪几乎没有。你一听就知道这是机器在说，不是在"表达"。对于有声读物、播客这类需要情感的内容来说，这个缺点几乎是致命的。

谷歌这次在Gemini 3.1系列里推出的Gemini-TTS，想做的一件事就是解决这个问题。

工具地址：Gemini官网

gemini3.1 flash TTS

这次不一样在哪？

最大的突破是：把语音的控制权还给了开发者。

Gemini-TTS支持通过提示词直接调控语音的情感、节奏和风格。你可以用自然语言描述你要什么样的声音——

“旁白需要低沉庄重，像纪录片配音”；
“对话要轻松自然，像朋友在聊天”；
“停顿落在这里，情绪逐渐推向高潮”；

这些描述，Gemini-TTS能理解并生成对应的语音输出。

以往要精细控制TTS的输出，需要调各种参数——语速、音调、停顿间隔。普通人根本不知道怎么配，配出来的效果也参差不齐。Gemini-TTS把这事变成了"说你要什么"——你描述得越精确，生成的结果越接近你的想象。

语言支持方面，Gemini-TTS覆盖约70种语言，中文普通话、英语、西班牙语、日语等主流语种都在列。

更贴心的是，它能自动识别输入文本的语种，不需要开发者手动标注。这意味着什么？做多语言内容的企业，以前需要针对每个语种单独对接API、单独调试。Gemini-TTS一套API就能搞定所有语种——有声读物要出中英日三语版本？一个接口，一个配置，全搞定。

对于有声读物、播客、客服机器人、教育应用这些需要大量语音内容的场景来说，这个效率提升是直接转化为成本的。

谷歌还特别强调了Gemini-TTS跟同系列音频模型的协同能力。

在实时对话、语音翻译和多模态交互场景中，系统可以在保持低延迟的同时，通过文本提示和音频标记对语音输出进行精细调控。翻译成人话就是：在电话、会议、导航这些"需要快速反应"的场景里，AI输出的语音能更接近真实人类的表达方式，而不是那种一听就是机器的"平板腔"。

语音这事儿，谷歌这两年其实一直在布局，但声量不如语言模型那么大。Gemini-TTS的发布，说明语音在谷歌AI战略里的优先级在往上走。

从行业角度看，各家大厂在语言模型、图像生成上卷得很凶，但在语音领域的竞争烈度还没那么高。谷歌这次带着"迄今最富表现力"的定位入场，加上Gemini系列已有的生态优势，后续的冲击力不容小觑。

对于需要语音能力的企业来说，现在是个值得关注的时间节点——各家方案都在快速迭代，早点测试、早点落地，就能早点形成竞争力。

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码