Luma正式推出全球首个推理视频模型Ray 3:支持 4K HDR 与草稿模式
2025年9月19日,AI视频生成领域迎来重大突破,Luma AI正式发布Ray3模型。这款被称为全球首个“推理视频模型”的产品,给行业带来了全新变革。
Ray3的核心亮点在于智能推理能力。它不像传统模型那样随机生成内容,而是能像创意伙伴一样理解用户意图,规划复杂场景,还能自我评估输出质量。它会先构思故事板,再迭代优化,大大提升了生成效果的准确性与艺术性。
技术上,Ray3支持从草图到4K分辨率的完整创作链条,新增的草稿模式让生成速度提升约20倍,创作者能快速测试多个创意。而且,它是首款原生支持10位、12位和16位HDR视频生成的模型,采用ACES EXR格式输出,可直接用于专业后期制作。
从演示效果看,Ray3在图像到视频转换方面表现出色,能解读图片涂鸦指令生成连贯动态序列,物理模拟真实感和角色一致性都达到行业先进水平,生成视频有电影级质感。
商业合作方面,Ray3已与Adobe Firefly深度整合,还获得日本数字营销公司Dentsu Digital、创意机构Monks UK等知名企业采用。不过,其演示效果在实际使用中的稳定性,还需更多用户验证。Ray3的出现,标志着AI视频生成从“碰运气”向精准创作转变,对整个创意产业影响深远。
详情查看:Luma AI发布Ray 3模型
Suno v5音乐模型即将登场,预告视频引发全球热议
近日,Suno通过神秘预告视频引发全球热议,其第五代音乐模型“v5”即将推出,被业内视为AI音乐创作的“变革性”里程碑。
9月18日晚,Suno官方在社交平台发布15秒短视频,画面中抽象音符与光影交织,配以低沉电子旋律,结尾“coming soon...”字样迅速积累超10万次浏览,引发数千条讨论。
虽未透露具体发布时间,但从以往迭代节奏看,v5可能在本月内或年底前亮相。今年5月发布的v4.5模型已将单曲生成时长扩展至8分钟,提升流派准确性和人声情感深度,还实现从纯文本提示生成向精细音频编辑转型,用户生成作品播放量累计突破数亿次。
而v5被寄予更高期望。社交讨论中,多位AI音乐创作者预测,它将引入更先进的语义控制和多模态输入,如结合图像或语音提示,解决当前模型在复杂结构和自然过渡上的痛点。
Suno的每次升级都在推动AI音乐创作发展,v5的出现有望进一步模糊人类作曲与机器生成的界限,降低创作门槛,让更多业余爱好者和专业制作人受益。未来,AI音乐创作将走向何方,v5的表现值得期待。
体验地址:Suno网页版官网入口 (需要科学上网)
阿里云宣布通义万相全新动作生成模型Wan2.2-Animate正式开源
2025年9月19日,阿里云宣布通义万相全新动作生成模型Wan2.2-Animate正式开源,为短视频创作、舞蹈模板生成、动漫制作等领域带来新助力。
Wan2.2-Animate是基于此前开源的Animate Anyone模型全面升级而来,在人物一致性、生成质量等指标上有大幅提升,支持动作模仿和角色扮演两种模式。在动作模仿模式下,输入角色图片和参考视频,就能将视频角色动作表情迁移到图片角色上;角色扮演模式则可在保留原视频动作、表情及环境基础上,替换视频角色。
通义万相团队构建大规模人物视频数据集,并基于图生视频模型后训练,将角色、环境和动作规范统一,实现单一模型兼容两种推理模式。针对身体运动和脸部表情,分别使用骨骼信号和隐式特征,配合动作重定向模块精准复刻。替换模式还设计了独立光照融合LoRA,保证光照融合效果。
实测显示,Wan2.2-Animate在视频生成质量、主体一致性和感知损失等关键指标上超越多个开源模型,人类主观评测中甚至超越部分闭源模型。用户可在GitHub、HuggingFace和魔搭社区下载模型和代码,也能通过阿里云百炼平台调用API或在通义万相官网体验,开启动作生成新体验。
详情查看:通义万相正式开源Wan2.2-Animate动作生成模型
腾讯元宝上线微信公众号及视频号评论区,帮你快速读懂内容
腾讯云官方近日宣布,AI助手腾讯元宝全面上线微信公众号和视频号评论区,为用户在微信生态中高效理解和消化海量内容提供便利。
如今,微信里视频、推文和评论众多,用户筛选有用信息耗时耗力。腾讯元宝具备强大的多模态内容理解能力,能“一眼看穿”各类内容。用户只需说一句“总结一下”,它就能迅速抓取几分钟视频或数千字文章重点,用几句话完成内容总结,让用户快速判断是否值得看以及重点是什么。
此外,腾讯元宝还支持扩展提问,能解释文章或视频中各种“梗”的含义和由来,解决用户理解障碍。比如,遇到网络流行语或特定领域的专业术语,用户可随时向元宝提问,获取详细解释。
腾讯元宝上线微信评论区这一功能,是AI技术在内容消费领域的深度应用。它提升了用户在微信生态中的阅读和观看效率,让信息获取更加便捷智能化。
未来,随着技术不断升级,腾讯元宝有望为用户带来更多惊喜,助力大家在信息海洋中轻松畅游。
体验地址:腾讯元宝网页版官网
腾讯发布混元3D Studio:3D创作流程全链路整合,效率提升至分钟级
2025年9月19日,腾讯推出专为3D设计师、游戏开发者和建模师打造的AI工作台——混元3D Studio,让3D创作效率实现革命性提升。
混元3D Studio1.0版本上线角色和道具创作管线,整合了从概念设计、几何建模到贴图、蒙皮和动画制作的完整流程。以往3D资产生产周期以“天”计算,现在缩短至“分钟”级,大大节省了时间和成本。
该平台引入多项核心技术创新。原生3D分割算法首创自动模型拆分技术,能将模型分解为清晰部件,方便角色配饰和服装独立编辑;AI语义UV展开1 - 2分钟内生成符合美术标准的UV图,提高工作效率;智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理,实现精准材质控制;自动绑骨蒙皮支持人形及非人形角色自动绑骨,结合动作模板快速生成动画效果。
此外,平台升级了低模拓扑功能,新增多档面数控制,满足不同用户需求。后续版本还将推出地图、关卡等更多创作功能。腾讯混元3D Studio的发布,彰显了腾讯在3D AIGC技术领域的实力,将推动整个3D创作行业发展变革,用户可通过腾讯混元3D创作引擎申请体验。
体验地址:腾讯混元3D网页版官网
面壁智能联合清华推出VoxCPM:新一代高拟真语音生成模型,支持零样本声音克隆
在语音合成技术快速发展的当下,面壁智能与清华大学深圳国际研究生院人机语音交互实验室联合发布新型语音生成模型VoxCPM,为语音生成领域带来新突破。
VoxCPM以0.5B的参数尺寸,在自然度、音色相似度及韵律表现力等关键指标上达到行业领先水平。通过零样本声音克隆技术,它能用极少数据生成用户独特声音,实现个性化语音合成,在个性化语音助手、游戏角色配音等领域应用前景广阔。
该模型已在GitHub、Hugging Face等平台开源,还提供线上体验平台,方便开发者探索使用。在权威语音合成评测榜单Seed - TTS - EVAL中表现出色,词错误率和音色相似度方面错误率极低,推理效率卓越。在一张NVIDIA RTX4090显卡上,实时因子(RTF)约0.17,满足高质量实时交互需求。
VoxCPM音质和情感表达出色,能根据文本内容智能选择声音、腔调和韵律,模拟真人听感。无论是气象播报、英雄演讲还是方言主播,都能精准再现。其技术架构基于最新扩散自回归语音生成模型,融合层次化语言建模和局部扩散生成连续表征,提升生成语音表现力与自然度。
模型地址: https://huggingface.co/openbmb/VoxCPM-0.5B (海外网站需要科学上网)
微软新数据中心将搭载数十万GB200芯片,目标成为全球最强AI算力集群
微软2025年9月19日宣布,将在美国威斯康星州建设第二个AI数据中心,投资总额高达40亿美元,这是其在数据中心领域持续扩张的重要举措。
新数据中心位于芒特普莱森特,预计配备数十万块英伟达的Blackwell GB200芯片,为AI模型运行提供强大计算能力,支持复杂AI训练和推理工作负载。微软总裁兼副董事长布拉德・史密斯称,这个数据中心将是世界上最强大的AI数据中心,性能是当前世界最快超级计算机的10倍。
在建设过程中,微软计划在数据中心西北约240公里处建立一座太阳能发电场,提供2.5亿瓦电力,两个数据中心总电力需求预计超9亿瓦,展现其在绿色能源方面的努力。
微软CEO萨蒂亚・纳德拉表示,将数据中心、GPU集群和网络设计成集成系统,确保从项目启动就能在数千个GPU上以指数级规模运行。据了解,微软在该项目已投资33亿美元,首个数据中心预计2026年初投入使用。新设施将为微软在AI领域的技术创新和市场竞争力提供有力支持,未来其在AI发展上的表现值得期待。
文章内容视频图片素材来源:官网推文
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: