• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

ARC-AGI-2:全新AI通用智能测试挑战顶尖模型,人类智慧仍占上风

ARC-AGI-2:全新AI通用智能测试挑战顶尖模型,人类智慧仍占上风
AI TOP100
2025-03-25 16:09:22

ARC-AGI-2:人工智能通用智能的新挑战

近日,由著名AI研究者 François Chollet 联合创立的 Arc Prize 基金会推出了一项名为 ARC-AGI-2 的全新测试。该测试旨在量化和评估人工智能(AI)模型所具备的通用智能水平。根据 Arc Prize 基金会的官方博客信息,这项新的基准测试对当前大多数领先的 AI 模型都构成了巨大的挑战。

ARC-AGI-2

Arc Prize 排行榜显示,诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1 等以“推理”能力著称的 AI 模型在 ARC-AGI-2 测试中的得分仅为 1% 到 1.3% 之间。即使是性能更为强大的非推理模型,如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash,其得分也仅在 1% 左右。ARC-AGI 测试的核心是一系列精心设计的拼图问题,这些问题要求 AI 系统从不同颜色的方块中识别出隐藏的视觉模式,并生成相应的 “答案” 网格。测试的设计初衷在于迫使 AI 能够快速适应并解决前所未见的新问题。

为了建立可靠的人类基准,Arc Prize 基金会邀请了超过 400 名志愿者参与 ARC-AGI-2 测试。结果显示,这些参与者的平均得分高达 60%,这一成绩远远超过任何 AI 模型的表现。Chollet 在社交媒体平台上指出,相较于之前的版本 ARC-AGI-1,ARC-AGI-2 能够更有效地评估 AI 模型的实际智能水平。新测试的主要目标是评估 AI 系统在没有大量预训练数据支持的情况下,是否能够高效地获取新的技能和知识。

ARC-AGI-2

ARC-AGI-2 的改进与挑战

与 ARC-AGI-1 相比,ARC-AGI-2 在设计上进行了多项改进,尤其值得一提的是引入了 “效率” 这一关键指标,并要求模型在不依赖记忆的情况下即时解释模式。正如 Arc Prize 基金会的联合创始人 Greg Kamradt 所强调的,智力不仅仅体现在解决问题的能力上,效率同样是一个至关重要的因素。

值得注意的是,OpenAI 的 o3 模型曾在 ARC-AGI-1 中以 75.7% 的高分遥遥领先,直到 2024 年才被其他模型超越。然而,令人惊讶的是,o3 在 ARC-AGI-2 中的得分却仅为 4%,并且在每个任务上的计算成本高达 200 美元。ARC-AGI-2 的发布正值整个技术界对更严格、更全面的 AI 进展衡量标准的呼声日益高涨。Hugging Face 的联合创始人 Thomas Wolf 曾公开表示,AI 行业目前缺乏足够的测试来准确衡量被称为人工通用智能(AGI)的关键特征,包括创造力、适应性和推理能力。

此外,Arc Prize 基金会还宣布将于 2025 年举办 Arc Prize 竞赛,旨在挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率,同时将每个任务的计算成本控制在 0.42 美元以内。 这无疑是一个极具挑战性的目标,将推动 AI 技术的进一步发展。

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 细思极恐!Meta竟然用色情片训练AI,背后隐藏的人性黑洞让人不寒而栗

  • 2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

  • Genie 3革命性突破:从2D游戏到3D世界,Google的AGI世界模型如何重塑未来?

  • Gamma AI:从"模板选择"到"内容驱动"的演示工具范式突破

  • AI行业震荡周:DeepSeek V3.1颠覆格局,人才缺口破500万大关 | 2025年8月第三周全景报告

热点资讯

即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

1天前
即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

4天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

1天前
可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

3天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

4天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有