AI界地震!OpenAI发布o4-mini和满血版o3!
各位看官,昨晚(准确的说是今天凌晨一点),科技圈可是炸开了锅!OpenAI正式推出了他们的王牌选手——chatgpt o4-mini和满血版o3!这俩家伙可不简单,绝对是AI界的狠角色!
这俩模型最大的亮点就是“多才多艺”,能同时搞定文字、图片、音频,简直就是个全能王!更厉害的是,它们还能像人类一样思考,自己调用网络搜索、图像生成、代码解析等工具,妥妥的智能小助手!
o4-mini:学霸附体,编程竞赛拿高分!
OpenAI放出的测试数据可是相当炸裂!chatgpt o4-mini在AIME2024和2025测试中,准确率分别高达93.4%和92.7%,比满血版o3还要厉害!而且,在Codeforces编程竞赛中,竟然拿到了2700分,直接跻身全球前200名顶尖程序员行列!这简直就是学霸附体啊!
告别传统!模型自己会“找帮手”
以前的大模型,只会埋头苦干。但这次,OpenAI开创性地赋予了o3和o4-mini调用外部工具的能力。也就是说,它们在训练的时候,不仅学会了怎么生成文本,还学会了在遇到复杂任务时,怎么找到合适的“帮手”!
比如,遇到复杂的数学题,它们会自己调用计算器工具;处理图片的时候,也能调用图像处理工具进行裁剪、旋转。有了这些“外挂”,它们就能轻松应对更复杂的任务了!
多模态推理:不再是单线程选手
多模态推理能力是chatgpt o3和o4-mini的另一大杀器。它们可以同时处理文字、图片、音频等不同类型的数据,然后把它们融会贯通。OpenAI用了一种创新的神经网络架构,把图片和文字数据都转换成统一的特征表示。
具体来说,图像数据通过卷积神经网络提取特征,文字数据则使用Transformer编码器提取语义信息。然后,通过一个融合模块,把这些不同类型的数据整合在一起,生成统一的特征表示,从而实现多模态数据的联合处理。更厉害的是,它们还能根据任务需求,动态调整不同类型数据的处理权重,灵活应变!
训练秘籍:无监督+监督,双管齐下
在训练方面,OpenAI采用了大规模无监督学习和少量监督学习相结合的方式。先让模型通过海量的文本和图像数据进行预训练,学习语言和图像的基本特征和模式。然后,再通过标注数据和工具使用数据对模型进行微调,让它们更好地理解和使用工具。
实战测试:数据说话,实力担当
在各种基准测试中,o3和o4-mini都表现得相当出色。AIME2024测试中,o3准确率为91.6%,o4-mini为93.4%;AIME2025测试中,o3准确率为88.9%,o4-mini为92.7%。Codeforces编程竞赛中,o4-mini更是拿到了2719分,位列全球前200名参赛者之列,o3也有2706分。在博士级问题解答GPQA测试中,o3模型准确率达到83%,o4-mini为81.4%。在多模态任务方面,它们在MMU Math、Vista、Charive和Vstar等多个基准测试中同样表现不俗。
实际应用:潜力无限,未来可期
除了常规测试,OpenAI还分享了一些实际使用测试结果。在科学研究领域,模型可以帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路;在软件开发领域,可以帮助开发者快速定位和修复代码中的错误。这些实际应用测试结果进一步证明了o3和o4-mini在处理复杂科学问题和实际开发任务中的巨大潜力。
如何体验?快来尝鲜!
从今天起,ChatGPT Plus、Pro和Team用户就能在模型选择器中看到o3、o4-mini和o4-mini-high了。ChatGPT Enterprise和Edu用户将在一周后获得访问权限。满血版o3和o4-mini也通过Chat Completions API和Responses API向开发者开放。Responses API支持推理摘要功能,并且很快将支持内置工具,包括网页搜索、文件搜索和代码解释器,以增强模型的推理能力。
总而言之小编认为,OpenAI这次发布的o4-mini和满血版o3,绝对是AI界的一颗重磅炸弹!它们的多模态能力、工具使用能力以及强大的推理能力,都预示着AI技术将迎来新的飞跃!让我们一起期待它们在未来的精彩表现吧!