OpenAI炸场！O3/O4-mini视觉推理模型：图片秒变答案，程序员福音！-AITOP100,AI资讯

OpenAI又搞大事啦！这次直接把视觉推理模型O3和O4-mini给端出来了，凌晨发布的，绝对新鲜热乎！这俩家伙可不是闹着玩的，它们是OpenAI “O”系列里头一回能用图像来做思维链推理的模型。简单说，就是看图说话，还能理解图里的意思，厉害吧！更劲爆的是，OpenAI还开源了一个叫做Codex CLI的轻量级编程Agent。这玩意儿简直就是程序员的福音，发布才几个小时，Star数就飙到5500+了！

OpenAI o3和o4-mini

### O3 vs O4-mini：选哪个？ O3和O4-mini，就像大哥和小弟。O3是大哥，推理能力最强；O4-mini是小弟，讲究的是速度和性价比。这两个模型厉害就厉害在，不仅能看图，还能把图像整合到推理过程中，一分钟之内就能给你答案，效率杠杠的！

O3和O4-mini的强大功能

### OpenAI的野心：AI编程领域再下一城？开源Codex CLI，能在本地运行，最大限度发挥模型推理能力。但OpenAI的野心可不止于此。据外媒爆料，他们正在和Windsurf（以前叫Codeium）谈收购的事儿，价格高达30亿美元！这可是OpenAI有史以来最大的一笔收购，看来是铁了心要在AI辅助编程领域称霸了。今天开始，ChatGPT Plus、Pro和Team用户已经可以用上O3、O4-mini和O4-mini-high了。这些新模型会逐渐取代老的O1、O3-mini和O3-mini-high。免费用户也能尝鲜，只要在提问前选择“思考”模式，就能体验O4-mini。OpenAI还计划在几周内推出O3-pro，功能更强大，工具更齐全。

ChatGPT用户可以使用新模型

OpenAI的联合创始人兼CEO Sam Altman那可是兴奋坏了，在社交平台上直接把O3、O4-mini夸成了“天才水平”，看来是对这次的发布相当满意。

Sam Altman的评价

### Windsurf：何方神圣？ Windsurf，原名Exafunction Inc.，2021年成立，已经融了2亿多美元的风险投资，估值30亿美元。这家公司去年11月发布了全球首个智能体IDE，实力不容小觑。

Windsurf发布全球首个智能体IDE

▲Windsurf发布全球首个智能体IDE（Agentic IDE）

最近AI编程领域的公司融资都很火爆，看来大家都看到了这个领域的潜力。如果OpenAI成功收购Windsurf，那它在AI编程助手方面的实力就更上一层楼了，直接和Anthropic、微软旗下的Github、Anysphere这些大佬硬碰硬。 ### O3/O4-mini：用图像来思考，啥都能搞定？ O3和O4-mini，最大的亮点就是能把图像直接整合到思考过程中，真正实现了“用图像来思考”。它们能解读你上传的白板照片、教科书图表，甚至是手绘草图。就算图像模糊、倒过来了，它们也能借助工具进行旋转、缩放、变换。还能和Python数据分析、网络搜索、图像生成这些工具一起工作，协同完成任务。比如，你随便拍一张照片，就能问它们“照片里最大的船叫什么名字？停在哪里？”

O3/O4-mini可以解读照片

以前做不出来的数学题，O3不用搜索就能给你正确答案，老模型可不行。

O3解决数学难题

让你收集旅行数据、经济统计数据、酒店入住率，然后分析趋势，推荐最佳扩张地点？没问题！O3能找到更多相关的资料，提出详细的计划，甚至还能预测现实世界的挑战，提前想好应对方案。

O3提供详细的扩张计划

你给它一张随便拍的节目单，它就能帮你分析日程安排，输出可行的计划。

O3分析节目单

这些模型还会根据获得的信息不断调整，多次搜索网络、查看结果，需要更多信息的时候还会尝试新的搜索方式。 ### 性能大提升！视觉推理准确率高达97.5% OpenAI说了，对于大多数应用来说，O3和O4-mini比之前的模型更智能、更便宜。

O4-mini的成本和性能

O3的成本和性能

经过一系列测试，新的视觉推理模型在多模态任务上都远超上一代。在V*测试中，视觉推理准确率高达95.7%！厉害了！ O3在分析图像、图表方面表现更好。专家评估说，O3在处理复杂问题时，犯的错误比老模型少了20%。 O4-mini在非STEM任务和数据科学领域表现更出色。而且，O4-mini的支持量更大，吞吐量更高。总而言之，新模型在指令遵循方面更强，回答更有用，也更容易验证。还能参考之前的对话，让回答更个性化。

新模型表现更好

多模态能力评估结果

编码能力评估结果

遵循指令和代理工具使用评估结果

### 开源轻量级编程Agent：Codex CLI OpenAI这次开源的Codex CLI，能最大限度地发挥O3和O4-mini的推理能力，让你直接在终端运行。你可以把截图或者草图传给它，结合本地代码，就能从命令行获得多模态推理的好处。

Codex CLI

开源地址：github.com/openai/codex

OpenAI还启动了一个100万美元的计划，支持使用Codex CLI和OpenAI模型的工程项目。 ### 当然，也有局限性图像推理目前还有一些局限性： * **推理链太长**：有时候会执行多余的操作，导致思考过程太长。 * **感知错误**：还是可能会犯一些基本的感知错误。 * **可靠性**：多次尝试解决问题时，可能会尝试不同的推理过程，有些可能会导致错误结果。 ### 总结：OpenAI发力视觉推理，未来可期！ OpenAI这次发布的O3和O4-mini，大大提升了模型的视觉推理能力，标志着向多模态推理迈出了重要一步。 OpenAI表示，他们会将O系列的专业推理能力和GPT系列的自然对话能力结合起来，让模型能支持无缝的对话，同时能主动使用工具，解决更复杂的问题。让我们拭目以待！