AI圈地震!Google偷袭,OpenAI绝地反击!
2024年,Google想在AI领域翻身,结果被OpenAI死死压制。每次Google憋着劲要开发布会,OpenAI就提前搞出更猛的产品,搞得Google无比尴尬。
2025年,Google学精了,不再声张,直接偷偷上线!这不,昨晚悄无声息地,Gemini 2.5 Pro模型就这么来了!
据说这玩意儿是个会推理的混合大模型,比GPT4.5和Grok3还牛,还能模仿人脑的快慢思考模式!这简直就是GPT-5的前奏啊!结果Google就这么低调上线了。
正当大家觉得Google要翻身的时候,OpenAI在推特上扔了个炸弹:
“太平洋时间上午11点直播。” 结果,OpenAI发布了GPT-4o image generation,图像生成技术模型!
这玩意儿的出图质量堪比专业摄影,构图随心所欲,细节处理精细到爆炸,还能理解图文信息,随意生成图中文字和LOGO!直接引爆全网!
凌晨两点多,小编我还没睡,看到朋友圈都在说北京地震了。我当时就发了这么一条朋友圈:
没感觉到北京地震,但此刻,被Google和OpenAI的这场AI大战震撼了!普通人还在睡觉,却不知道,通往AGI的路上,人类又往前迈了一大步!
失眠也要见证!AGI又近一步!
Gemini 2.5:第一个类人大模型?
Gemini 2.5 Pro 实验版这次真的猛!据说它能搞定更复杂的编程、科学和数学问题,还能搞出更智能的智能体!
这个新的“思考模型”在 LMArena 上遥遥领先,还在数学、科学和编码基准测试中干翻了DeepSeek-R1、Grok 3 和 Claude 3.7。几乎把OPenAI家的o3-mini和GPT4.5按在地上摩擦!
Gemini 2.5 Pro 现在是竞技排行榜第一名!这可是有史以来最大的分数跳跃!比 Grok-3/GPT-4.5 高了整整40分!
它配备100 万 token 的上下文(马上就要升级到 200 万了!),能处理各种数据,还能通过 vibe coding 认证,只用一个提示就能搭建整个游戏!这就是Gemini 2.5的厉害之处!
更重要的是,你问Gemini 2.5问题的时候,它会先“思考”一下,然后才回答!这就像人脑处理问题一样,先一步一步分析,找到最佳解决方案!
小编我测试了一下,让它生成一个“近3年国内直播带货KOL的动态演示页面”,2.5 Pro嗖嗖嗖就生成了代码!
Google AI的优势在于,它可以调用之前 Flash 2.0 就已经融合的Google工具,比如分析YouTube视频、输出内容到Docs。生成代码后,直接用Colab演示!
下面是2.5 Pro生成的主播热度动态演示效果。侧重点是代码生成过程,内容准确性有待提高。毕竟2023年的小杨哥还没翻车,还是直播带货一哥。
我还测试了2.5 Pro的深度推理能力,让它生成一份具身智能报告。报告内容不是那种空洞的套话,而是具有可读性的干货!
OpenAI:摄影师要失业了?
OpenAI展示的官方案例AI生图中,第一张图就让人震惊了!
如果没人告诉你,你绝对想不到这是AI生成的!反射画面和密密麻麻的文字,都在告诉你AI不可能这么牛!
但这就是4o生成的!OpenAI还放出了提示词:
这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿一件印有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影。
更神奇的是,把人物朝向变一下,生成的图像还是毫无破绽!给大家震撼一下!
如果你没有GPT Plus,用GPT免费的图片生成功能,也能秒杀大部分文生图产品了!这是小编直接用上面同款提示词生成的图片。
我还用Google 2.0 Flash模型,用同款提示词生成了同样的图。可以看到Google的审美还有待提高,手部细节也崩了。
OpenAI是不是为了官网案例专门调优了模型?还需要等全量上线后,大家长期测试。
4o的图像生成指令也很强大!很多系统处理 5-8 个对象就够呛了,而 GPT‑4o 可以处理多达 10-20 个!下图就是4o在同一张图上,生成了16个物体,而且每个都准确地表达了用户的内容!
4o在图片编辑方面也不甘示弱,直接狙击了Google刚火起来的图片编辑能力!
AGI要来了吗?
OpenAI宣布,ChatGPT 和 Sora 的所有 Plus、Pro、Team 和 Free 用户都可以开始使用4o 图像功能了!
山姆奥特曼说:“ChatGPT 中图像的新版本仍在推出中,如果今天没有获得很好的图像,请稍后再试。” 预示着将继续整合多模态模型,以及产品端的融合。
有网友评论,4o图像功能超越了数百家AI图像公司。甚至一些摄像和设计师等影像工作的饭碗,也要丢了!
Gemini席卷的各种基准测试证明了他的强大。实际体验中,简单问题回答迅速,需要深度推理的问题执行也很快!一份报告、一个游戏生成基本都在60秒以内!
我惊艳于它的速度,更惊讶这种融合模型带来的体验!不会再出现问个简单问题,AI也要深度推理的情况了!当然,2.5还不能生成图片,也许下一步3.0,就会带来这一能力。
Google这波操作拉响了硅谷的AI军备竞赛!Anthropic CEO称,还有更强的大模型没有放出,预计近期推出,防止Claude 3.7无法维持领先!而OpenAI在GPT 4.5发布会中,山姆奥特曼都没出现,也许意味着新的模型也会近期发布!
在这场OpenAI和Google对决中,最着急的是埃隆马斯克!他在X上发了多条内容,表示Grok才是最好的模型!
马斯克发布这张图时说:这是很重要的区别!嘲讽其他家模型撒谎和追求政治正确,而Grok则追求真理!
马斯克的出现,为这场竞争增添了趣味!
就在DeepSeek V3刚刚拿回的头牌中,Google和OpenAI展示了强大的竞争实力,大家你追我赶,进一步拉近了AGI的梦想!
也许就在不远的某个夜晚,AGI就会突然降临!