Skywork AI发布Matrix-Game 3.0:实现720p 40帧实时高清"世界生成"
Skywork AI团队近日发布技术报告,宣布在交互式世界模型领域取得重大突破。其最新研发的Matrix-Game3.0系统,首次在720p高清分辨率下实现了每秒40帧的实时视频生成速度,并成功解决了AI视频生成中长期存在的"长效记忆"缺失问题。
■ 攻克AI视频的"失忆"顽疾
长期以来,AI视频生成模型在处理长序列互动时,常因缺乏有效记忆而出现空间结构错乱或风格漂移。Matrix-Game3.0通过引入相机感知的记忆检索机制打破了这一瓶颈。该系统不仅能根据当前的相机姿态精准检索历史画面,还采用了统一的自注意力架构,将远期记忆、近期历史与当前预测帧置于同一空间进行联合建模。实验证明,即使在长达数分钟的复杂交互中,系统依然能保持极高的时空一致性。
■ 工业级数据引擎与性能优化
团队构建了一套规模庞大的"数据工厂":利用虚幻引擎5开发了Unreal-Gen平台,可全自动生成包含超过1亿种角色组合的电影级交互视频;系统支持从《侠盗猎车手5》《赛博朋克2077》等顶级游戏中大规模自动录制高质量的交互数据。在推理架构上,团队采用了多段自回归蒸馏策略,并结合VAE解码器剪枝技术,使解码速度提升了5倍以上。
详情查看: https://www.aitop100.cn/matrix-game-3.0
哩布哩布AI发布致歉声明:已完成生成内容规范问题的技术修复与风险封堵
4月14日,针对近期媒体关于人工智能生成内容安全问题的讨论,哩布哩布AI正式发布官方公告表示高度重视,并通报了内部专项排查及整改进展。公告承认,在个别复杂提示词组合及规避表达的边界场景下,平台生成能力曾出现不符合规范的情况。
■ 技术修复与审核升级
目前,哩布哩布AI已完成相关问题的技术修复,并对已知的风险路径进行了全面封堵。为防止此类问题再次发生,平台同步启动了审核机制的全面升级,通过加强攻防演练提升对违规内容的识别与处置效率。同时,公司内部已开启责任复盘机制,旨在从管理与审核流程源头完善内容安全体系。
■ 邀请社会共同监督
哩布哩布AI在声明中强调,内容安全是平台发展的底线。未来将以更高标准推动生态健康发展,并诚挚邀请社会各界通过举报邮箱进行共同监督。此次事件反映出AI平台在应对复杂内容攻击时仍需持续迭代,也预示着国内AIGC行业将迎来更严格的合规自律阶段。
工具地址:哩布哩布AI官网

火山引擎Seedance 2.0全面开放API服务:支持文本图片音频视频四种输入
火山引擎正式推出了Seedance2.0系列API服务,企业和个人用户可以利用这一先进的视频生成技术,重新定义工作流程,探索创新的产品形式和应用场景。Seedance2.0作为视频生成领域的顶尖模型,支持文本、图片、音频和视频四种输入方式,提供全面的多模态内容创建与编辑能力。
■ 肖像与版权安全标准
为确保AI视频创作的合规性和安全性,火山引擎建立了肖像与版权的安全标准,涵盖了视频生成的全过程。火山方舟预置了超过1万个高质量的虚拟人像,涵盖各种年龄和职业,丰富了用户的创作选择。用户可以高效合规地使用虚拟形象进行创作。
■ 行业应用效果显著
在过去的两个月中,Seedance2.0在创作者和企业客户中的应用获得了极高的评价。例如导演贾樟柯与Seedance2.0合作制作的春节短片中,虚拟形象的表现引发了观众对AI技术的深度思考。众多企业利用Seedance2.0进行短剧和漫剧的创作,制作效率提升达80%至90%,显著降低了成本。
详情查看: https://www.aitop100.cn/infomation/details/33627.html

阿里千问上线表格Agent:支持直接生成与编辑Excel,对话即办公
阿里千问正式上线"表格Agent"功能。该功能支持用户通过自然语言对话,直接完成Excel文件的生成、信息检索及深度编辑,标志着大模型从"提供文本答案"向"交付直接成果"的进一步演进。
■ 全场景表格处理能力
“表格Agent"打破了传统表格处理的繁琐流程:用户只需下达口令(如"整理最新的增值税优惠政策清单”),千问即可自动联网检索信息,并将其转化为标准的Excel文件供下载;系统能理解多轮沟通的上下文,在聊完旅行攻略或学习计划后,一句话即可要求其将聊天细节汇总为包含日期、预算、备注等字段的结构化表格;支持上传PDF、Word、PPT甚至手绘课表、纸质报表照片,精准识别图文内容并还原为Excel格式。
■ 独立沙箱与智能规划
在技术实现上,千问将用户的复杂需求拆解为一条Agent执行链路。系统会在独立的沙箱环境中运行代码,从而生成带有真实公式、复杂排版和严密数据逻辑的专业文件。当判断现有信息不足以支撑表格生成时,Agent还会自动触发在线检索以补充数据。目前,千问表格Agent已在千问App、网页版及PC客户端全面上线,所有用户均可免费体验。
工具地址:通义千问官网

谷歌Gemini推出Nano Banana交互式可视化图像生成功能:可操作数字模拟程序
近日,谷歌为其AI助手Gemini推出了一项交互式图像生成功能。得益于底层的Nano Banana技术,Gemini的可视化能力实现从"静态图像"向"动态交互模拟"的跨越。当用户提出"向我展示"或"帮助我可视化"特定复杂主题时,系统将触发"向我展示可视化图表"按钮,生成可操作的数字模拟程序。
■ 实时交互与深度调节
在实际测试中,该功能展现了极强的信息承载力。例如在演示"月球绕地运行"时,用户可通过滑块实时调节轨道速度并变换观测视角;而在"汽车引擎工作原理"的可视化中,用户不仅能更改动画播放逻辑,还能手动拆解、调整视图以观察每一个机械步骤。相比传统单张图片,这种交互式模拟能更直观地解构复杂逻辑与物理过程。
■ 技术对比与覆盖范围
尽管Anthropic在今年3月曾为Claude发布过类似功能,但Gemini的新尝试在动态交互深度上各具特色。目前Gemini尚不支持保存此类交互生成内容,该功能正面向全球范围内的Gemini专业版用户陆续推出,教育版和工作区账户暂不在支持之列。这一技术在在线教育、工程模拟及科普领域具有重要应用价值。
详情查看: https://www.aitop100.cn/infomation/details/33626.html

本地推理超进化:Claude Code对接魔改版Gemma 4,速度暴增5倍
据报道,开发者在Mac Studio M4Max环境下,针对Claude Code对接本地大模型进行了深度实测。结果显示,通过使用社区魔改蒸馏版模型,生成速度较官方原版实现了5至6倍的跨越式提升。
■ 极致速度与稀疏激活
在本次测试中,开发者弃用了体验欠佳的官方原版,转而采用社区魔改模型gemma-4-26b-a4b-it-claude-opus-heretic-ara:生成速度高达78tok/s,相比原版的十几token提升显著;采用A4B MoE架构,总参数26B但每次推理仅激活约4B参数,实现了"小参数算力、大参数智能";支持256K上下文,完美兼容Anthropic API格式,实现零配置对接。
■ 双模型"高低配"组合策略
实测显示,在执行具体任务时总耗时仍需约1.5分钟,瓶颈主要集中在Claude Code的多步Agentic决策链。基于实测数据,开发者提出了一套兼顾隐私、成本与质量的最优策略:本地魔改模型处理日常CRUD生成、代码解释及隐私敏感的内部项目,享受零成本与数据不出内网的安全性;云端官方API应对复杂架构设计、核心安全模块等高难度任务,确保生产级质量。
详情查看: https://www.aitop100.cn/infomation/details/33622.html


谷歌推出Veo 3.1 Lite视频模式:Ultra订阅用户可免积分无限生成
谷歌近日宣布面向Ultra订阅用户推出全新的视频生成选项"Veo 3.1 Lite"模式,旨在提升用户的创作频率与性价比。该模式最大的核心特征在于其无需额外消耗订阅积分,与现有的"Veo 3.1 Fast"模式形成互补,进一步降低了高质量AI视频生成的准入门槛。
■ 运营成本不足Fast版本一半
作为谷歌视频产品线中目前成本最低且响应最快的方案,Veo 3.1 Lite的运营成本不足Fast版本的一半,但在生成速度上与Fast版本保持同等水平。根据官方计划,谷歌将于5月10日正式停用"Veo 3.1 Fast低优先级"选项,并全面由Lite版本替代,而标准的Veo 3.1 Fast版本将保留现有价格体系继续运营。此举被视为谷歌针对重度用户创作习惯的精准调整。
■ 差异化定价筑起生态壁垒
市场背景方面,在OpenAI暂停Sora项目的竞争空窗期,谷歌凭借其深厚的计算资源储备,在西方AI视频生成领域确立了显著的主导地位。通过提供免积分的轻量化生成方案,谷歌有望进一步沉淀用户数据并优化模型推理成本,为其在多模态大模型领域的长期领先地位提供支撑。AI视频行业正从单一的"画质竞争"转向"算力效能与用户粘性"的综合博弈。
详情查看: https://www.aitop100.cn/veo-3.1-Lite

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










