每日AI资讯-2026年3月24日-AITOP100,AI资讯

Luma AI推出Uni-1图像生成模型：自回归架构重塑图像生成新范式

图像生成领域的技术路线之争，正迎来一个新的变量。Luma Labs 于近日正式发布旗下首款基于 Unified Intelligence 架构的图像生成模型 Uni-1，以一种截然不同的技术思路，向扩散模型主导的市场格局发起挑战。

与主流扩散模型不同，Uni-1 采用 decoder-only 自回归 Transformer 架构，将文本 token 与图像 token 交错排列为单一序列，在同一次前向传播中完成语义理解与像素生成。这一设计从根本上消除了"先规划、再生成"两阶段之间的信息损耗问题，让模型的理解与输出更加连贯一致。

在功能层面，Uni-1 支持单张或多张参考图引导生成，能够稳定保留人物身份、姿势与构图细节，并声称兼容 76 种视觉风格，涵盖写实摄影、漫画、浮世绘等多元类别。一个典型演示场景是：输入"画一张金门大桥信息图"，模型自动完成布局规划并生成带有精确数据标注的结构图，内部推理过程实时可见。

基准测试数据同样亮眼。 在 RISEBench 推理基准上，Uni-1 总分 0.51，超越 Google Nano Banana 2（0.50）和 OpenAI GPT Image（0.46）；空间推理单项得分 0.58，逻辑推理得分约为 GPT Image 的两倍。在人类偏好 Elo 排名中，Uni-1 在整体偏好、风格与编辑、参考生成三项均位列第一。

定价方面，API 按 token 计费，单张 2048px 文生图约 $0.09，在 2K 分辨率企业场景下，成本比部分竞品低 10%～30%。目前官网已开放免费试用，企业 API 接入通道也在逐步上线。

Uni-1的发布，是Luma Labs从视频生成向静态图像领域延伸的重要一步，也是自回归架构在多模态生成任务中的一次有力验证。

详情查看： https://www.aitop100.cn/infomation/details/33495.html

Luma AI推出Uni-1图像生成模型

阿里通义PrismAudio：让AI视频配音真正做到"声画合一"

AI 视频生成技术飞速发展，但"有画无声"或"声音对不上画面"的问题，始终是影响内容质量的隐形短板。针对这一行业痛点，阿里通义实验室推出了视频生成音频框架 PrismAudio，并已被顶级 AI 学术会议 ICLR 2026 正式收录。

PrismAudio 的核心突破在于引入了"分解式思维链"机制。 与传统配音模型"直觉式"生成不同，PrismAudio 在发声之前会先对视频内容进行系统性分析：画面中有哪些元素？声音应在何时出现？音质是清脆还是低沉？声源位于左侧还是右侧？这种"先思考、再发声"的工作方式，从源头上规避了声音与画面错位的问题。

在质量保障机制上，研发团队引入了强化学习框架，设计了四个维度的"虚拟评审"：语义一致性、时序同步性、美学质量与空间准确性。四重评分机制同步运作，有效解决了以往模型"顾此失彼"的顽疾，使生成音效在多个维度上同时达标。

效率表现同样令人印象深刻。得益于自研的 Fast-GRPO 高效训练算法，PrismAudio 的模型参数仅为 5.18 亿，远低于同类产品，却能在 0.63 秒内完成一段 9 秒高质量音频的生成，几乎实现即传即得。

PrismAudio 的落地，为影视后期制作、短视频内容创作提供了高效的自动化配音工具，也为多目标生成任务提供了新的技术参考。当 AI 能够精准感知画面的空间感与质感，视频创作"所见即所闻"的时代正在加速到来。

开源地址：https://prismaudio-project.github.io/

阿里通义PrismAudio

阿里达摩院玄铁C950发布：RISC-V处理器首次原生支持千亿参数大模型

在芯片领域，一个历史性的节点悄然到来。3月24日，阿里巴巴达摩院在上海举办的2026玄铁RISC-V生态大会上，正式发布高性能处理器玄铁 C950。这款芯片不仅刷新了全球 RISC-V 性能纪录，更首次实现了 CPU 对千亿参数大模型的原生支持。

在核心架构上，玄铁C950进行了激进升级。 采用 8 指令译码、16 级流水线及超 1000 条指令乱序窗口，最高主频达 3.2GHz。在 SPECint2006 基准测试中，其单核通用性能首次突破 70 分，成为目前全球性能最强的 RISC-V 处理器。在云网络、云存储等典型应用场景下，性能较主流产品提升 30% 以上。

AI加速能力是此次发布的另一大亮点。达摩院同步推出 Vector 和 Matrix 两款原生 AI 加速引擎，与玄铁 CPU 统一编址，实现通用算力与 AI 算力的深度融合。实测显示，该架构可流畅运行 Qwen3-235B 和 DeepSeek V3-671B 等顶尖大模型，这在行业内尚属首次。

生态建设方面，达摩院与中国科学院软件研究所、北京开源芯片研究院签署联合研发协议，携手 openKylin 打造 RISC-V 原生 AI 操作系统。目前玄铁系列已落地 200 多款量产芯片，广泛应用于 AI 眼镜、电力工控等前沿领域。

行业数据预测，到2031 年 RISC-V设备出货量将达360亿颗。从边缘设备到高端服务器，玄铁 C950 的发布标志着开放架构正式具备承载大模型时代算力需求的能力。

阿里达摩院玄铁C950发布

Dreamina AI双模型齐发：Seedance 2.0与Seedream 5.0 Lite正式上线

AI创作工具的迭代节奏正在不断加快。CapCut旗下AI创作平台Dreamina AI近日宣布，多模态视频模型Seedance 2.0与图像生成模型 Seedream 5.0 Lite 同步正式上线，为内容创作者带来更强的控制力与更丰富的创作可能。

Seedance 2.0 是此次更新的核心亮点。 作为一款先进的多模态视频生成模型，它支持图像、视频、文本三种输入方式，能够在跨场景切换中保持极致的内容一致性。无论是人物形象的连贯呈现，还是复杂场景的流畅过渡，Seedance 2.0 的表现力与操控灵活性均有大幅提升，能够满足专业级视频创作的高标准需求。

图像生成方面，Seedream 5.0 Lite 带来了实时世界知识能力的重要升级。新版本能够更严格地遵循用户指令，生成结果的精准度显著提高，同时视觉表现力也得到全面增强，让图像创作更加生动自然，减少了以往"指令打折"的情况。

两款模型的上线，进一步完善了 Dreamina AI 在视频与图像两大核心赛道上的产品矩阵。官方表示，新模型将在未来几天内逐步向全体社区用户推送，若暂时未看到更新，刷新页面后即可获取。

在AI创作工具竞争日趋激烈的当下，Dreamina AI此次双模型同步发布，展示了字节跳动在多模态生成领域的持续投入与技术积累。

工具地址：Dreamina AI（海外网站需要科学上网）

阿里国际Accio Work上线：AI 智能体30分钟帮你开好一家跨境网店

跨境电商的创业门槛，正在被AI技术快速拉低。阿里国际近日正式在海外发布首个企业级AI智能体平台Accio Work，主打"零基础开店"，声称用户只需输入一个商业创意，30 分钟内即可拥有一家可直接接单的专业网店。

Accio Work的核心竞争力在于全链路自主执行能力。 传统跨境开店需要经历市场调研、选品、翻译、视觉设计、店铺装修等多个繁琐环节，耗时数天乃至数周。而 Accio Work 将这一流程压缩至半小时：用户提交创意后，平台自动完成市场分析、商品选品、视觉设计与店铺装修，全程无需人工干预。

平台内置了多个细分领域的专业智能体，涵盖"电商专家"、"网店运营"和"一件代发货"等角色，并配备金融财务、内容创作及供应链管理的专用技能模块。更值得关注的是其自主外联能力：Accio Work 能够根据指令在社交平台投放广告，甚至自主联系中国供应商并完成商务谈判，直至采购落地，真正实现了从"调研"到"成交"的全生命周期闭环。

目前，阿里国际平台上的企业用户数已突破1000 万。Accio Work的推出，是AI智能体从通用助手走向垂直行业落地的典型案例。

当AI能够独立完成建店、推广、谈判的完整链条，跨境电商的竞争逻辑将从"拼人力规模"转向"拼 AI 指令精度"，行业格局或将迎来深刻重塑。

详情查看： https://www.aitop100.cn/infomation/details/33493.html

阿里国际Accio Work上线

Anthropic为AI助手新增电脑控制功能：Claude正式从"动口"走向"动手"

AI助手的能力边界，正在从对话延伸至实际操作。Anthropic近日宣布，旗下AI助手Claude正式具备直接控制用户电脑的能力，面向 Claude Pro和Max订阅用户开放，目前支持macOS系统。

与传统API调用方式不同，Claude的电脑控制功能更接近"数字员工"的工作模式。 它能够模拟鼠标移动、点击和键盘输入，直接操作浏览器、开发工具或本地文件。在工具调用优先级上，Claude 会优先通过"连接器"接入 Google 日历、Slack 等常用服务；若无对应工具，则直接在屏幕上定位界面元素并执行操作，与真人使用电脑的方式高度一致。

结合新推出的 Dispatch 功能，用户甚至可以在手机端发出指令，让家中的电脑自动执行跑测试、生成早间简报等任务，实现真正意义上的远程自动化。

安全性是此类功能绕不开的核心议题。Anthropic在设计上设置了多重防护机制：每项关键操作前均需用户确认授权，用户可随时中止；系统内置提示词注入攻击检测，并默认禁用涉及高度敏感信息的应用。官方目前将该功能定义为"研究预览"阶段，建议用户避免处理极度敏感的数据。

从聊天助手到桌面执行器，Claude的这次升级标志着"代理型 AI"正式进入实战阶段。当 AI 开始替用户回邮件、跑代码、整理文件，个人电脑的使用方式正在悄然改变。

模型地址：Claude官网

Claude操控电脑

美团龙猫开源LongCat-Flash-Prover：AI数学定理证明迎来新突破

让 AI 真正"学会"数学，而不只是"猜出"答案——这一目标正在变得越来越近。2026 年 3 月 24 日，美团龙猫（LongCat）团队正式开源深度学习模型 LongCat-Flash-Prover，专注于数学形式化与定理证明任务，在多项权威基准测试中刷新了开源模型的最优纪录。

LongCat-Flash-Prover 的核心创新在于将形式化推理拆解为三大原子能力： 自动形式化（Auto-Formalization）、草稿生成（Sketching）与证明生成（Proving）。这一分层设计使模型从"概率预测答案"转向"严谨逻辑证明"，从根本上改变了大语言模型处理数学问题的方式。

在结合工具集成推理（TIR）策略的条件下，该模型在 MiniF2F-Test 基准测试中仅需 72 次推理预算即可达到 97.1% 的通过率，刷新了开源 Prover 模型的 SOTA 纪录。在 MathOlympiad-Bench 与 PutnamBench 等竞赛级高难度任务中，其表现同样全面超越现有开源模型。

技术层面，模型采用基于TIR的"混合专家迭代"框架，集成Lean4Server校验、语义及定理一致性检测，并针对 9 种作弊行为设置合法性验证机制。训练阶段引入分层 Masking 策略与 Token 层面 Staleness 控制，显著提升了 MoE 架构下强化学习的稳定性。

LongCat-Flash-Prover 已在 GitHub 和 Hugging Face 同步开源。随着 AI 推理能力从自然语言模糊处理转向计算机可验证的形式化语言，此类模型正逐步成为基础科学研究的重要底层工具。

详情查看： https://www.aitop100.cn/infomation/details/33494.html

美团龙猫开源LongCat-Flash-Prover