▲Windsurf发布全球首个智能体IDE(Agentic IDE)
最近AI编程领域的公司融资都很火爆,看来大家都看到了这个领域的潜力。如果OpenAI成功收购Windsurf,那它在AI编程助手方面的实力就更上一层楼了,直接和Anthropic、微软旗下的Github、Anysphere这些大佬硬碰硬。 ### O3/O4-mini:用图像来思考,啥都能搞定? O3和O4-mini,最大的亮点就是能把图像直接整合到思考过程中,真正实现了“用图像来思考”。 它们能解读你上传的白板照片、教科书图表,甚至是手绘草图。就算图像模糊、倒过来了,它们也能借助工具进行旋转、缩放、变换。还能和Python数据分析、网络搜索、图像生成这些工具一起工作,协同完成任务。 比如,你随便拍一张照片,就能问它们“照片里最大的船叫什么名字?停在哪里?”开源地址:github.com/openai/codex
OpenAI还启动了一个100万美元的计划,支持使用Codex CLI和OpenAI模型的工程项目。 ### 当然,也有局限性 图像推理目前还有一些局限性: * **推理链太长**:有时候会执行多余的操作,导致思考过程太长。 * **感知错误**:还是可能会犯一些基本的感知错误。 * **可靠性**:多次尝试解决问题时,可能会尝试不同的推理过程,有些可能会导致错误结果。 ### 总结:OpenAI发力视觉推理,未来可期! OpenAI这次发布的O3和O4-mini,大大提升了模型的视觉推理能力,标志着向多模态推理迈出了重要一步。 OpenAI表示,他们会将O系列的专业推理能力和GPT系列的自然对话能力结合起来,让模型能支持无缝的对话,同时能主动使用工具,解决更复杂的问题。让我们拭目以待!