OpenAI“思维链”公开:应对DeepSeek的策略?
OpenAI似乎感受到了来自DeepSeek的压力!
令人惊讶的是,OpenAI近日公开了o3-mini的“思维链”(Chain-of-Thought, CoT)。
以提问“怎么今天不是星期五啊😅”为例。
展示的CoT显示,o3-mini逐步分析,认为用户是在开玩笑,暗示一周快结束但尚未结束。因此,需要提供一个巧妙的回复。
随后,它使用Zeller公式计算,确认2025年2月6日确实是星期四,即使考虑闰年的特殊情况也是如此。
最终,它回答说:“今天的确是周四,不是周五,日历是这样安排的。”并鼓励用户:“再坚持一下,只剩一天啦!”
然而,敏锐的观察者很快发现了问题:这真的是原始的CoT吗?
真相很快浮出水面!
OpenAI研究员Noam Brown明确指出,这次公开的并非模型原始的CoT。
Tibor Blaho也发现,所谓的CoT实际上是一个“总结器”。(幽默地)
奥特曼解释说,他们正在努力整理原始的CoT,提高可读性,并在必要时进行翻译,同时尽量保持原始内容的真实性。
他展示了o3-mini使用emoji进行推理的过程。
OpenAI似乎不愿让竞争对手看到CoT的具体过程,防备心很强。
OpenAI研究员:CoT实时演示带来“啊哈时刻”
OpenAI研究员Noam Brown表示,在o1-preview发布之前,当他向他人介绍草莓时,CoT的实时演示经常是他们顿悟的时刻。
他们立即意识到这意义重大。
对于全新的o3-mini CoT,Noam Brown分享了他的玩法:
你正在玩井字棋,你使用 O。目前,X已经在左上角和右下角落子,而你在中间位置落子。下一步的最佳行动是什么?只回答你的行动,并画出棋盘。
Noam Brown称,o3-mini是目前首个能持续正确解答井字棋问题的模型。
有趣的是,他承认CoT可能不稳定,但最终还是解决了问题。
有人指出,OpenAI这种遮遮掩掩地发布高仿CoT的行为,甚至比什么都不发布更糟糕。
因为真实的CoT可以作为提示词的调试器,帮助引导模型;而总结性的CoT会造成混淆,引入错误,使得调试更加困难。
DeepSeek R1最吸引人的一点是它展示了模型的CoT如何影响提示的效果。
此外,总结版的CoT显示速度较慢。原始的o3-mini应该具有更快的推理生成速度。
有人将OpenAI和DeepSeek的CoT进行了对比,认为前者显得过于专业,而DeepSeek的产品则更为自然。
防止模型被“蒸馏”?
OpenAI发布CoT总结器的举动,确实受到了DeepSeek R1崛起的影响。
在o3-mini发布当天,OpenAI在Reddit上举行AMA问答活动,有网友提问:“我们能看到模型思考的所有token吗?”
当时,奥特曼回答说:“我们很快就会展示一个更有帮助、更详细的版本。”
随后,OpenAI首席产品官Kevin Weil暗示,是否展示所有内容还有待确定。
“我们知道用户(至少是高级用户)想要看到这些,所以OpenAI会找到一个合适的平衡点。”
如今,当人们终于看到了奥特曼所谓的“留到最后的好东西”时,感受到的只有失望。
毕竟,DeepSeek已经这样做了,而且是完整的原始CoT!
对此,OpenAI发言人表示:“为了提高清晰度和安全性,我们增加了一个额外的后处理步骤,模型会审查原始思维链,移除任何不安全的内容,然后简化复杂的想法。”
“此外,这个后处理步骤使得非英语用户能够以他们的母语接收思维链,创造一个更容易访问和友好的体验。”
话虽委婉,但业内人士都明白OpenAI的真实意图。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html