• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

通义实验室发布:Fun-CosyVoice3.5与Fun-AudioGen-VD语音双模型

通义实验室发布:Fun-CosyVoice3.5与Fun-AudioGen-VD语音双模型
AI TOP100
3天前

今天,阿里通义实验室语音团队重磅推出两款具有革命性意义的语音生成模型——Fun-CosyVoice3.5 与 Fun-AudioGen-VD,这两款模型凭借独特的“FreeStyle”指令功能,在语音生成领域掀起了一阵新的浪潮。

自然语言操控:打破传统语音生成壁垒

以往,语音生成往往需要用户进行复杂的参数调节,对于非专业人士来说,这一过程不仅繁琐,而且难以达到理想的效果。然而,阿里通义此次发布的两款模型却彻底改变了这一局面。

它们支持“FreeStyle”指令,用户无需再为各种参数设置而烦恼,只需通过一句自然语言描述,就能精准控制声音的表达风格,甚至从零构建复杂的音频场景。这种创新性的交互方式,大大降低了语音创作的技术门槛,让更多人能够轻松参与到高品质语音的创作中来。

Fun-CosyVoice3.5:多语种复刻与精细化控制专家

Fun-CosyVoice3.5 作为 CosyVoice 的升级版,在语音表达的“理解力”方面实现了核心突破。

指令式生成:随心调整语音效果

在指令式生成方面,该模型展现出了强大的灵活性。用户可以输入诸如“语气坚定点”“语速放慢并带点情绪起伏”等指令,模型会实时根据这些指令调整输出效果,让语音更加贴合用户的需求。无论是用于商务演讲、有声读物录制,还是日常交流,都能轻松实现个性化的语音表达。

语种扩容:拓展全球语音交流版图

为了满足日益增长的全球语音交流需求,Fun-CosyVoice3.5 新增了对泰语、印尼语、葡萄牙语及越南语的支持。在 13 种语言的转写准确率(WER)和音色相似度上,该模型始终保持业内领先水平,为跨国交流、多语言内容创作等提供了有力支持。

生僻字优化:提升语音识别准确性

生僻字一直是语音识别和生成中的难题,但 Fun-CosyVoice3.5 通过专项调优,将生僻字读错率从 15.2% 大幅降至 5.3%。这一改进使得模型在处理包含生僻字的内容时更加准确可靠,进一步提升了语音生成的质量。

性能提升:保障实时交互流畅度

在性能方面,Fun-CosyVoice3.5 也有显著提升。首包延迟降低 35%,这意味着在实时交互场景下,用户能够更快地获得语音反馈,极大地提升了交流的流畅度和体验感。

Fun-CosyVoice3.5

Fun-AudioGen-VD:全场景声音设计的“声音导演”

如果说 Fun-CosyVoice3.5 专注于语音表达的精细化控制,那么 Fun-AudioGen-VD 则更像是一位全能的“声音导演”,能够根据描述生成“人物 + 场景”的一体化音频。

音色定制:打造专属独特声音

在音色定制方面,Fun-AudioGen-VD 支持用户指定性别、年龄、口音,甚至可以细化到“沙哑、磁性、低沉”等特质。无论是想要塑造一个成熟稳重的男性声音,还是一个甜美可爱的女性声音,该模型都能轻松实现,满足不同场景下的多样化需求。

情绪与角色:模拟复杂心理状态

除了音色定制,Fun-AudioGen-VD 还能够模拟各种角色的声音,并表现出丰富的情绪。它可以模拟客服的亲切热情、播音员的专业沉稳、孩童的天真活泼等角色声音,甚至能表现出“表面镇定但内心颤抖”等复杂心理状态,为音频内容增添更多的生动性和真实感。

环境沉浸感:营造全方位空间模拟

为了营造更加逼真的音频场景,Fun-AudioGen-VD 支持叠加背景音和空间特效。用户可以添加战场轰鸣、咖啡馆喧嚣等背景音,以及大教堂回声、水下听感等空间特效,实现全方位的空间模拟,让听众仿佛身临其境。

Fun-CosyVoice3.5

行业助力:推动语音技术应用新发展

阿里通义实验室表示,这两款模型的发布将进一步降低高品质语音创作的门槛,为播客、游戏开发、影视后期等领域提供强大的 AI 助力。

  • 在播客领域,创作者可以利用这些模型轻松实现个性化的语音表达和丰富的场景音效,提升节目质量;
  • 在游戏开发中,模型可以为游戏角色赋予更加生动逼真的声音,增强玩家的沉浸感;
  • 在影视后期制作中,能够快速生成高质量的语音内容,提高制作效率。

阿里通义发布的这两款语音生成模型,无疑为语音技术领域注入了新的活力。它们以自然语言操控为核心,在多语种复刻、精细化控制、全场景声音设计等方面取得了重要突破,为众多行业带来了全新的发展机遇。

随着技术的不断进步和应用场景的不断拓展,相信这两款模型将在未来发挥更加重要的作用,推动语音技术迈向新的高度。

调用地址:

API地址:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

API文档:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码AI大赛社群二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 2026GAIC全球人工智能大会:AI影视主题论坛

  • 网易云音乐推出AI创作工具“云创”上线,免费解锁零门槛写歌

  • 未来已来:AI 开启短剧新纪元 —— 第三届短剧生态大会

  • 广州OpenClaw Meetup:AI搞钱新招大公开,错过等一年!

  • MiniMax Music 2.5+:纯音乐与跨风格生成上线

热点资讯

【AI内容共创计划】新春投稿期奖励公示!双倍积分 + 周月榜福利悉数到账,创作不停福利不止

3天前
【AI内容共创计划】新春投稿期奖励公示!双倍积分 + 周月榜福利悉数到账,创作不停福利不止

小龙虾OpenClaw与AI漫剧结合,当前能不能用它全自动生产?

2天前
小龙虾OpenClaw与AI漫剧结合,当前能不能用它全自动生产?

🦞 深圳养龙虾 - OpenClaw大龙虾全球Meetup深圳站,3月7日南山聚“虾”

1天前
🦞 深圳养龙虾 - OpenClaw大龙虾全球Meetup深圳站,3月7日南山聚“虾”

Anthropic发布Claude Code语音模式,以后写代码,张张嘴就行!

1天前
Anthropic发布Claude Code语音模式,以后写代码,张张嘴就行!

OpenClaw中国微博官方社交账号上线,获智谱、月之暗面等主流大模型厂商互动

1天前
OpenClaw中国微博官方社交账号上线,获智谱、月之暗面等主流大模型厂商互动
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有