Google Gemini TTS 2.5上线,情绪语音+24种语言以及多角色一键切换
Google又有新动作,Gemini TTS 2.5正式和大家见面啦!这次升级可不简单,带来了情绪级语音表达,从欢快乐观到阴郁严肃,一键就能切换,让语音更有情感。
它还具备上下文自适应节奏功能。在朗读复杂内容时,会自动放缓语速,让你轻松理解;遇到兴奋的段落,则会加速,营造紧张刺激的氛围。比如读神秘小说,能随着剧情逐步加速,转折处“咔嗒”一声,张力直接拉满。
多角色和24语种支持也是一大亮点。多说话者身份锁定,对话交接自然,不会出现角色串线的情况。覆盖英、法、德等24种语言,还保留了原音调与风格。像Voices from History应用,就能实现英 - 多语种混用历史对话,角色个性十分稳定。
行业反馈也相当不错。音频平台集成后,多说话者模式很受欢迎,订阅率提升了20%,首月流失率降低了20%,运营成本还下降了20%。内容工作室用英/印地语给漫画配音,角色一致性获赞,沉浸感显著提升。
Google还计划在2025年Q1推出低延迟Flash版与高质量Pro版并行,满足实时与精品双需求。如果你对语音合成感兴趣,不妨去Google AI Studio与Playground免费测试一下,提前感受这些新功能带来的魅力。

商汤Seko 2.0上线:低成本生成百集连贯动画,AI视频Agent解决长剧制作难题
想轻松制作动画剧吗?商汤科技发布的Seko 2.0多剧集AI视频Agent能帮你实现。只需输入一句话创意,就能一键生成最高100集剧情连贯、人物零崩坏的长篇动画短剧,而且制作成本低到接近“一杯奶茶钱”。
Seko 2.0采用“多剧集记忆 + 全局一致性”架构,能确保人物脸型、服装、声音从第1集到第100集都零崩坏,世界观、时间线、人物关系也能自动记忆并严丝合缝。它先生成完整故事大纲与100集分集剧情表,用户确认后再逐集生成,每集都有标准节奏。
操作起来也很简单,分三步。先输入创意,可以是一句话,也能上传剧本;再选风格,有上百种可选,还支持多种比例;最后导入角色,上传自拍生成3D形象,或导入原创OC,还能随时暂停修改。
AIbase编辑部实测,输入“30集废柴大学生19天逆袭北大考研故事”,选热血国漫风和竖屏模式,12分钟就拿到第1集完整成片,人物可识别,剧情节奏流畅。
和竞品相比,Seko 2.0在100集连贯性上更胜一筹。虽然商汤未公布具体定价,但透露“一杯奶茶钱”就能生成100集。而且猿动力影视已和商汤合作,计划2025年推出电影质感级AI漫剧,延伸至院线电影与精品剧集,值得期待。
工具地址:商汤发布Seko 2.0

夸克S1智能AI眼镜火爆,市场供不应求
最近AI智能眼镜市场热闹非凡,夸克S1成了焦点。12月10日,它在天猫、抖音等主流电商平台一上架就被抢购一空,出现了“上架即售罄”的火爆场面。
天猫官方客服称,由于产能有限,每天上午10点上架的限量产品不到半小时就没了,公司正在紧急增产备货。线下合作门店也表示,新订单普遍要等一个月左右,订单量已透支未来约45天的产能,供应链面临极限考验。
在二手交易平台上,夸克S1成了硬通货。转卖价格普遍在4000元左右,部分现货甚至被炒到超过5000元,远超官方售价。市场上还出现了租赁业务,Rokid、雷鸟等热门品牌日租价格在40元至95元不等,可见大家对新技术的尝鲜需求很旺盛。
夸克S1之所以这么火,和它自身的优势分不开。不过目前产能跟不上需求,导致供不应求。对于消费者来说,如果不着急体验,可以等产能提升、价格稳定后再购买;要是想第一时间尝鲜,二手市场和租赁业务也是选择,但要注意交易安全。
随着技术发展和产能扩大,相信未来AI智能眼镜市场会更加成熟,产品也会更加丰富多样,给消费者带来更多选择和更好的体验。让我们一起期待吧。
详情查看:AI智能眼镜市场狂热来袭,夸克S1供不应求,二手溢价超5000元

Figma上线AI图像编辑:支持套索删除、背景扩边与无提示调色
设计平台Figma在2025年12月10日上线了全新AI图像编辑功能,给设计师们带来了不少便利。这次新功能支持套索一键删除/隔离对象、背景自动扩边及无文本提示的光照/色彩微调,工具栏还统一归位了。
套索2.0功能很实用。用套索工具选中目标,点击“Remove”就能直接删除,点击“Isolate”还能拖移位置,而且背景、颜色等属性保持不变。无需文字提示,模型就能自动补全像素,适合产品图、人物海报快速二次创作。
画面扩边功能也很强大。能把1×1的方形创意扩展为Web横幅或手机海报,系统自动填充两侧背景与元素。它结合了生成模型与像素级修复技术,避免了重复裁剪与人工对齐。
无提示微调功能让操作更简单。选中对象后,在侧边栏直接调整光照、阴影、色温、焦点,无需输入指令,适用于品牌物料快速适配不同媒介色彩规范。
工具栏归位设计也很贴心。所有图像编辑功能统一收入左侧工具栏,“Remove Background”获得突出按钮。Figma透露,删背景是平台最高频操作,新设计能显著缩短操作路径。
新功能今日起面向Figma Design与Draw用户推送,2025年覆盖全产品线。Figma还计划2024Q4开放图像编辑API,探索视频帧级对象移除。设计师们不妨去体验一下这些新功能。
详情查看:Figma全新AI图像编辑功能正式上线,设计效率飙升!

腾讯元宝AI新功能,解决QQ群“爬楼”难题
在QQ群里聊天,面对大量未读消息,是不是常常感到焦虑,不知道从哪看起?腾讯旗下AI助手“腾讯元宝”推出的智能未读消息总结功能,就能帮你解决这个难题。
这个功能利用人工智能技术,自动把冗长的群聊记录提炼成要点明确、结构清晰的总结报告。你不用再逐条翻阅,只需启用总结功能,系统就能快速生成涵盖核心话题、关键发言、分享文件及图片的摘要报告,让你“一分钟爬完一下午的楼,瞬间回归群聊大部队”。
它的功能很强大,不止于简单摘要。能自动识别并归类群内的核心讨论话题,标注讨论时间段、参与成员和精炼总结;还能专门筛选并汇总所有@提及你的重要消息,确保通知和关键事项不被遗漏,你也能点击特定群友名称,查看其发言汇总;自动将聊天中分享的图片、文档等文件打包整理,一键查看或下载;在阅读总结时,通过点击数字索引,直接跳转至原始聊天记录。
除QQ群总结功能外,元宝还支持添加为QQ好友进行一对一对话,提供查信息、读文件、评游戏战绩等服务。
同时,电脑版、浏览器插件及移动APP均已上线,多端覆盖,将AI便利性融入工作、学习和社交。这个功能直击信息过载痛点,有望提升沟通效率,让你更轻松参与社群互动。
工具地址:腾讯元宝AI

阿里发布Qwen3-TTS语音模型,49种音色任你选
阿里通义千问发布的新一代语音合成大模型Qwen3-TTS,给语音合成领域带来了新惊喜。即日起,它通过Qwen API向全球开发者免费开放,提供了丰富的语音选择和强大的功能。
Qwen3-TTS有49种多角色音色,角色库涵盖性别、年龄、地域及角色设定,像“撒娇搞怪茉兔”“严厉老师墨讲师”等,一键就能切换。无论是播客、有声书、游戏NPC还是智能客服,都能秒级换声,无需额外训练。
它支持10种主流语言及10种中国方言,主流语言包括中、英、德等,方言有普通话、粤语、四川话等,保留了地道口音与语调。在MiniMax TTS multilingual test set上,平均词错误率(WER)优于MiniMax与ElevenLabs,合成准确率提升约12%。
韵律与语速方面,它能根据文本情绪自动调节快慢与停顿,音节级重音与语调预测让MOS评分达4.6,逼近真人4.8,首包延迟<300ms,适合直播配音与对话场景。
目前API免费开放,无调用次数限制,默认支持商业用途,无需额外授权费,一句HTTPS请求即可接入,10行代码完成语音播报。2025年Q1将推出“方言语音克隆”功能,5秒音频复刻地方口音;Q2发布边缘盒子版本,支持离线局域网部署,覆盖智慧景区、车载语音等场景,值得期待。

Google升级AI搜索:增加内嵌链接与AI说明,提升结果透明度
Google对其AI驱动的搜索功能“AI模式”进行了重要更新,旨在提升用户的搜索体验。这次更新为搜索结果增加了更多内嵌来源链接,还由AI生成简短说明,帮助用户理解链接与查询的关系。
比如搜索“如何用低预算打造复古家居风格”,首先会看到一段概括性总结,提供二手货物建议、建筑细节改造思路和DIY项目等内容。总结之后是相关网站链接,以轮播形式呈现,方便浏览。未来,AI模式回答中会有更多带超链接的词语或短语,每个链接旁都有AI生成的说明。
这一调整是在欧盟监管机构加大对生成式AI搜索审查的背景下进行的。此前欧盟委员会对Google展开调查,评估其是否违反竞争规则、未给予网络出版商“适当补偿”。
Google注意到,AI生成总结出现时,用户点击传统链接意愿可能下降,但整体点击量仍“相对稳定”。为缓解“截流”担忧,Google与多家媒体试点合作,探索AI工具为新闻机构吸引受众,如为文章添加AI撰写的概述摘要,与美联社合作推送实时资讯。
还把“偏好来源”功能推广到全球英语用户,让用户更易找到喜欢的媒体来源。这次更新能让搜索结果更清晰,提升用户体验。
详情查看:Google AI搜索功能升级

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









