2025年10月28日,豆包语音团队的AI多人有声剧全自动生产方案正式上线。这项技术首次实现从小说文本到广播剧成品的“无人化”制作:无需配音演员、无需后期剪辑、无需人工干预,成本直降90%,效率提升10倍,效果却能硬刚专业广播剧。当AI不仅能“念”书,还能自导自演多角色情感大戏,有声内容产业的天,彻底变了!

98%角色识别率,AI演活“人物灵魂”
传统TTS(语音合成)总被吐槽“机器人念稿”,但豆包的新引擎直接颠覆认知。通过海量小说文本与语音数据的“多模态预训练”,AI能精准区分对话中的每个角色,角色识别准确率高达98%。更绝的是,它还能根据角色性格、情绪和场景,自动调整语调、节奏和语气——反派冷笑时声音低沉如冰,少女雀跃时语调轻快如铃,彻底告别“一人千面”的机械感。
更厉害的是,系统能智能添加背景音乐、环境音效和转场特效。比如雨夜打斗场景,AI会自动配上雷声和脚步回响;宫廷对话时,古琴声和烛火噼啪声瞬间营造出沉浸感。用网友的话说:“这哪是听书?分明是看了一场电影!”
番茄小说首批落地,用户:比人工快10倍!
目前,这项技术已在字节跳动旗下的番茄小说APP完成首批商业化部署。AI生成的多人有声剧上线后,用户反馈直接“炸锅”:“更新速度比人工快十倍!”“角色切换毫无违和感,像专业团队做的!”对平台来说,这不仅丰富了内容供给,更让海量中长尾小说首次有了高质量音频化的可能——以前只有头部IP能“有声化”,现在连小众作品都能“开口说话”。
对比传统有声书制作,豆包方案优势有多明显?
| 维度 | 传统模式 | 豆包AI方案 |
|---|---|---|
| 成本 | 配音演员+后期剪辑,单集超万元 | 零人工成本,单集成本降90% |
| 效率 | 人工录制需数天,更新慢 | 端到端生成,分钟级出片 |
| 角色表现 | 依赖演员功底,易“千人一面” | 98%识别率,角色个性鲜明 |
| 内容覆盖 | 仅头部IP可制作 | 中长尾小说全面音频化 |
未来升级:方言、多语言、全题材覆盖
豆包团队透露,未来方案将升级至方言支持(比如让东北角色说地道方言)、多语言能力(英文、日文小说也能自动生成),并覆盖悬疑、科幻、言情等更多题材。更关键的是,随着小说日更,有声剧也能同步上线——真正实现“文字发布即音频可用”,彻底打破传统有声书“更新滞后”的痛点。
有趣的是,有测试用户调侃:“以后写小说是不是得先给AI‘试戏’?毕竟它演得太真了!”这种互动感,恰恰是AI原生音频内容的魅力所在。
AI原生音频时代,每一部小说都有“专属剧团”
在音频内容需求爆发的今天,传统有声书制作受限于高成本和长周期,难以覆盖海量网文。而豆包的全自动方案,不仅破解了这一瓶颈,更预示着一个新时代的到来:未来,每一部小说都可能拥有自己的“AI剧团”,听众能随时享受丰富、即时、高质的听觉盛宴。
对中小企业和创作者来说,这更是一场“降维打击”——以前需要专业团队才能完成的有声内容,现在一个人+AI就能搞定。正如行业专家所言:“AI正在重塑文化生产链,而音频领域,可能是第一个被彻底颠覆的赛道。”
小贴士:目前该技术已在番茄小说APP开放体验,快去听听AI演的“广播剧”有多真!
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









