Luma AI推出Uni-1图像生成模型:自回归架构重塑图像生成新范式
图像生成领域的技术路线之争,正迎来一个新的变量。Luma Labs 于近日正式发布旗下首款基于 Unified Intelligence 架构的图像生成模型 Uni-1,以一种截然不同的技术思路,向扩散模型主导的市场格局发起挑战。
与主流扩散模型不同,Uni-1 采用 decoder-only 自回归 Transformer 架构,将文本 token 与图像 token 交错排列为单一序列,在同一次前向传播中完成语义理解与像素生成。这一设计从根本上消除了"先规划、再生成"两阶段之间的信息损耗问题,让模型的理解与输出更加连贯一致。
在功能层面,Uni-1 支持单张或多张参考图引导生成,能够稳定保留人物身份、姿势与构图细节,并声称兼容 76 种视觉风格,涵盖写实摄影、漫画、浮世绘等多元类别。一个典型演示场景是:输入"画一张金门大桥信息图",模型自动完成布局规划并生成带有精确数据标注的结构图,内部推理过程实时可见。
基准测试数据同样亮眼。 在 RISEBench 推理基准上,Uni-1 总分 0.51,超越 Google Nano Banana 2(0.50)和 OpenAI GPT Image(0.46);空间推理单项得分 0.58,逻辑推理得分约为 GPT Image 的两倍。在人类偏好 Elo 排名中,Uni-1 在整体偏好、风格与编辑、参考生成三项均位列第一。
定价方面,API 按 token 计费,单张 2048px 文生图约 $0.09,在 2K 分辨率企业场景下,成本比部分竞品低 10%~30%。目前官网已开放免费试用,企业 API 接入通道也在逐步上线。
Uni-1的发布,是Luma Labs从视频生成向静态图像领域延伸的重要一步,也是自回归架构在多模态生成任务中的一次有力验证。
详情查看: https://www.aitop100.cn/infomation/details/33495.html

阿里通义PrismAudio:让AI视频配音真正做到"声画合一"
AI 视频生成技术飞速发展,但"有画无声"或"声音对不上画面"的问题,始终是影响内容质量的隐形短板。针对这一行业痛点,阿里通义实验室推出了视频生成音频框架 PrismAudio,并已被顶级 AI 学术会议 ICLR 2026 正式收录。
PrismAudio 的核心突破在于引入了"分解式思维链"机制。 与传统配音模型"直觉式"生成不同,PrismAudio 在发声之前会先对视频内容进行系统性分析:画面中有哪些元素?声音应在何时出现?音质是清脆还是低沉?声源位于左侧还是右侧?这种"先思考、再发声"的工作方式,从源头上规避了声音与画面错位的问题。
在质量保障机制上,研发团队引入了强化学习框架,设计了四个维度的"虚拟评审":语义一致性、时序同步性、美学质量与空间准确性。四重评分机制同步运作,有效解决了以往模型"顾此失彼"的顽疾,使生成音效在多个维度上同时达标。
效率表现同样令人印象深刻。得益于自研的 Fast-GRPO 高效训练算法,PrismAudio 的模型参数仅为 5.18 亿,远低于同类产品,却能在 0.63 秒内完成一段 9 秒高质量音频的生成,几乎实现即传即得。
PrismAudio 的落地,为影视后期制作、短视频内容创作提供了高效的自动化配音工具,也为多目标生成任务提供了新的技术参考。当 AI 能够精准感知画面的空间感与质感,视频创作"所见即所闻"的时代正在加速到来。
开源地址:https://prismaudio-project.github.io/

阿里达摩院玄铁C950发布:RISC-V处理器首次原生支持千亿参数大模型
在芯片领域,一个历史性的节点悄然到来。3月24日,阿里巴巴达摩院在上海举办的2026玄铁RISC-V生态大会上,正式发布高性能处理器玄铁 C950。这款芯片不仅刷新了全球 RISC-V 性能纪录,更首次实现了 CPU 对千亿参数大模型的原生支持。
在核心架构上,玄铁C950进行了激进升级。 采用 8 指令译码、16 级流水线及超 1000 条指令乱序窗口,最高主频达 3.2GHz。在 SPECint2006 基准测试中,其单核通用性能首次突破 70 分,成为目前全球性能最强的 RISC-V 处理器。在云网络、云存储等典型应用场景下,性能较主流产品提升 30% 以上。
AI加速能力是此次发布的另一大亮点。达摩院同步推出 Vector 和 Matrix 两款原生 AI 加速引擎,与玄铁 CPU 统一编址,实现通用算力与 AI 算力的深度融合。实测显示,该架构可流畅运行 Qwen3-235B 和 DeepSeek V3-671B 等顶尖大模型,这在行业内尚属首次。
生态建设方面,达摩院与中国科学院软件研究所、北京开源芯片研究院签署联合研发协议,携手 openKylin 打造 RISC-V 原生 AI 操作系统。目前玄铁系列已落地 200 多款量产芯片,广泛应用于 AI 眼镜、电力工控等前沿领域。
行业数据预测,到2031 年 RISC-V设备出货量将达360亿颗。从边缘设备到高端服务器,玄铁 C950 的发布标志着开放架构正式具备承载大模型时代算力需求的能力。

Dreamina AI双模型齐发:Seedance 2.0与Seedream 5.0 Lite正式上线
AI创作工具的迭代节奏正在不断加快。CapCut旗下AI创作平台Dreamina AI近日宣布,多模态视频模型Seedance 2.0与图像生成模型 Seedream 5.0 Lite 同步正式上线,为内容创作者带来更强的控制力与更丰富的创作可能。
Seedance 2.0 是此次更新的核心亮点。 作为一款先进的多模态视频生成模型,它支持图像、视频、文本三种输入方式,能够在跨场景切换中保持极致的内容一致性。无论是人物形象的连贯呈现,还是复杂场景的流畅过渡,Seedance 2.0 的表现力与操控灵活性均有大幅提升,能够满足专业级视频创作的高标准需求。
图像生成方面,Seedream 5.0 Lite 带来了实时世界知识能力的重要升级。新版本能够更严格地遵循用户指令,生成结果的精准度显著提高,同时视觉表现力也得到全面增强,让图像创作更加生动自然,减少了以往"指令打折"的情况。
两款模型的上线,进一步完善了 Dreamina AI 在视频与图像两大核心赛道上的产品矩阵。官方表示,新模型将在未来几天内逐步向全体社区用户推送,若暂时未看到更新,刷新页面后即可获取。
在AI创作工具竞争日趋激烈的当下,Dreamina AI此次双模型同步发布,展示了字节跳动在多模态生成领域的持续投入与技术积累。
工具地址:Dreamina AI(海外网站需要科学上网)
阿里国际Accio Work上线:AI 智能体30分钟帮你开好一家跨境网店
跨境电商的创业门槛,正在被AI技术快速拉低。阿里国际近日正式在海外发布首个企业级AI智能体平台Accio Work,主打"零基础开店",声称用户只需输入一个商业创意,30 分钟内即可拥有一家可直接接单的专业网店。
Accio Work的核心竞争力在于全链路自主执行能力。 传统跨境开店需要经历市场调研、选品、翻译、视觉设计、店铺装修等多个繁琐环节,耗时数天乃至数周。而 Accio Work 将这一流程压缩至半小时:用户提交创意后,平台自动完成市场分析、商品选品、视觉设计与店铺装修,全程无需人工干预。
平台内置了多个细分领域的专业智能体,涵盖"电商专家"、"网店运营"和"一件代发货"等角色,并配备金融财务、内容创作及供应链管理的专用技能模块。更值得关注的是其自主外联能力:Accio Work 能够根据指令在社交平台投放广告,甚至自主联系中国供应商并完成商务谈判,直至采购落地,真正实现了从"调研"到"成交"的全生命周期闭环。
目前,阿里国际平台上的企业用户数已突破1000 万。Accio Work的推出,是AI智能体从通用助手走向垂直行业落地的典型案例。
当AI能够独立完成建店、推广、谈判的完整链条,跨境电商的竞争逻辑将从"拼人力规模"转向"拼 AI 指令精度",行业格局或将迎来深刻重塑。
详情查看: https://www.aitop100.cn/infomation/details/33493.html

Anthropic为AI助手新增电脑控制功能:Claude正式从"动口"走向"动手"
AI助手的能力边界,正在从对话延伸至实际操作。Anthropic近日宣布,旗下AI助手Claude正式具备直接控制用户电脑的能力,面向 Claude Pro和Max订阅用户开放,目前支持macOS系统。
与传统API调用方式不同,Claude的电脑控制功能更接近"数字员工"的工作模式。 它能够模拟鼠标移动、点击和键盘输入,直接操作浏览器、开发工具或本地文件。在工具调用优先级上,Claude 会优先通过"连接器"接入 Google 日历、Slack 等常用服务;若无对应工具,则直接在屏幕上定位界面元素并执行操作,与真人使用电脑的方式高度一致。
结合新推出的 Dispatch 功能,用户甚至可以在手机端发出指令,让家中的电脑自动执行跑测试、生成早间简报等任务,实现真正意义上的远程自动化。
安全性是此类功能绕不开的核心议题。Anthropic在设计上设置了多重防护机制:每项关键操作前均需用户确认授权,用户可随时中止;系统内置提示词注入攻击检测,并默认禁用涉及高度敏感信息的应用。官方目前将该功能定义为"研究预览"阶段,建议用户避免处理极度敏感的数据。
从聊天助手到桌面执行器,Claude的这次升级标志着"代理型 AI"正式进入实战阶段。当 AI 开始替用户回邮件、跑代码、整理文件,个人电脑的使用方式正在悄然改变。
模型地址:Claude官网

美团龙猫开源LongCat-Flash-Prover:AI数学定理证明迎来新突破
让 AI 真正"学会"数学,而不只是"猜出"答案——这一目标正在变得越来越近。2026 年 3 月 24 日,美团龙猫(LongCat)团队正式开源深度学习模型 LongCat-Flash-Prover,专注于数学形式化与定理证明任务,在多项权威基准测试中刷新了开源模型的最优纪录。
LongCat-Flash-Prover 的核心创新在于将形式化推理拆解为三大原子能力: 自动形式化(Auto-Formalization)、草稿生成(Sketching)与证明生成(Proving)。这一分层设计使模型从"概率预测答案"转向"严谨逻辑证明",从根本上改变了大语言模型处理数学问题的方式。
在结合工具集成推理(TIR)策略的条件下,该模型在 MiniF2F-Test 基准测试中仅需 72 次推理预算即可达到 97.1% 的通过率,刷新了开源 Prover 模型的 SOTA 纪录。在 MathOlympiad-Bench 与 PutnamBench 等竞赛级高难度任务中,其表现同样全面超越现有开源模型。
技术层面,模型采用基于TIR的"混合专家迭代"框架,集成Lean4Server校验、语义及定理一致性检测,并针对 9 种作弊行为设置合法性验证机制。训练阶段引入分层 Masking 策略与 Token 层面 Staleness 控制,显著提升了 MoE 架构下强化学习的稳定性。
LongCat-Flash-Prover 已在 GitHub 和 Hugging Face 同步开源。随着 AI 推理能力从自然语言模糊处理转向计算机可验证的形式化语言,此类模型正逐步成为基础科学研究的重要底层工具。
详情查看: https://www.aitop100.cn/infomation/details/33494.html

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










