Inworld AI推出实时TTS-2：闭环语音理解+100语言无缝切换，从"读稿"到"听懂你"-AITOP100,AI资讯

从"文字先行"到"音频闭环"

传统语音合成模型的工作逻辑是：接收文本 → 转换为音频 → 输出。在这个流程中，模型完全依赖文字转录，对说话者的真实情感状态一无所知。

TTS-2的核心创新在于闭环系统架构：模型不仅仅依赖文字转录，而是直接接收交流中的实际音频，从而真正"听见"用户的情感和语气。

这一差异带来的改变是显著的。以往，同样的文字在不同语气下传达的情感可以截然不同——"好吧，算了"在沮丧的语气和轻松的语气中含义天差地别。TTS-2能够捕捉到这些细微的情感信息，显著提升对话的连贯性和真实感。

TTS-2配备了四项差异化功能：

功能	描述	实际价值
语音指令	推理时用简单语言提示引导语音表达，而非选择固定情感标签	精细化情感控制
对话意识	闭环架构让模型理解上下文，不割裂地处理每一轮对话	对话连贯自然
跨语言支持	同一声音身份可在100+语言间无缝切换，中途切换语言保持声音统一	出海应用友好
高级语音设计	通过描述性文字生成可重复使用的声音，无需参考音频	降低声音制作门槛