• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

DeepSeek R1 横空出世,开源模型性能直逼 OpenAI,引发 AI 社区狂欢

DeepSeek R1 横空出世,开源模型性能直逼 OpenAI,引发 AI 社区狂欢
AI TOP100
2025-01-21 11:34:01

DeepSeek R1 引爆 AI 社区

DeepSeek R1 引爆 AI 社区:性能超越,成本颠覆

近日,DeepSeek 的一项重大发布在 Reddit 和 𝕏 等社交媒体上引发了狂潮,其性能之卓越远超预期。此次发布的核心内容有三点:

  • 开源 DeepSeek-R1 推理大模型: 性能与 OpenAI 的 o1 模型相近,为行业提供了新的高性能选择。
  • 开源 DeepSeek-R1-Zero 预训练模型: 采用直接强化学习 (RL) 方法,不依赖监督微调 (SFT),如同语言模型领域的 AlphaZero。
  • 开源 R1 数据蒸馏的 Qwen 和 Llama 系列小模型: 在部分任务上,其表现甚至超过了 GPT-4o。

DeepSeek R1性能爆炸

此次发布还开放了官方 API,输入 token (命中缓存) 价格仅为 OpenAI o1 的 1/50,未命中缓存和输出 token 价格约为 1/27。如此低廉的价格,无疑将大大降低 AI 应用的门槛。

deepseek开发API

R1-Zero 的“顿悟时刻”

DeepSeek-R1-Zero 模型在思考过程中展现出 “顿悟时刻”, 能够自行为问题分配更多思考时间。这种自我进化能力,让人们对 AI 的未来发展充满想象。

有网友推测,如果能够稳定利用这种“顿悟”能力,其潜力将难以估量。

另外,社区猜测 OpenAI 的 o1-pro/o3 模型可能采用了 “tree-of-agents” 方法,即多个 o1 分身共同解答问题,然后选择最优答案。若将 DeepSeek-R1 与 Search-o1 和 Tree-of-Agents 结合,或能以极低成本获得媲美 o3 的性能,成本可能降低数百倍。

蒸馏模型超越 GPT-4o,开源策略造福业界

DeepSeek 还开源了 6 个基于 R1 数据蒸馏的小模型, 其中,蒸馏版 Qwen-1.5B 在某些任务上超越了 GPT-4o,展现出极强的性能。

此外,DeepSeek 将开源许可证更新为 MIT Lisence,使得 R1 模型、数据和 API 均可免费用于商业用途,极大推动了 AI 技术在各个领域的应用。

因此,有人称 DeepSeek 此次的发布为“新的源神” 降临。

DeepSeek R1 技术细节:强化学习与多阶段训练

OpenAI 的 o1 系列模型引入了推理时扩展的概念,通过延长思维链推理过程,在数学、编程和科学推理等领域取得了显著的性能提升。DeepSeek 团队则采用纯强化学习的方法提升语言模型的推理能力,旨在探索在没有监督数据的情况下,通过强化学习实现模型的自我进化。

DeepSeek-R1-Zero:纯强化学习的探索

DeepSeek-R1-Zero 使用 DeepSeek-V3-Base 作为基础模型,采用 GRPO 强化学习框架来提高推理能力。训练过程中,该模型自然涌现出强大的推理能力。在 AIME 2024 测试中,其 pass@1 得分从 15.6% 提高到 71.0%, 通过多数投票进一步提高到 86.7%, 性能与 OpenAI-o1-0912 相近。

DeepSeek-R1:结合冷启动数据和多阶段训练

为了解决 R1-Zero 可读性差和语言混杂的问题, DeepSeek 团队提出了 DeepSeek-R1。 该模型结合了少量冷启动数据和多阶段训练流程:

  1. 首先收集冷启动数据微调 DeepSeek-V3-Base 模型。
  2. 然后进行类似于 R1-Zero 的强化学习。
  3. 当强化学习接近收敛时,通过拒绝采样,结合其他领域的监督数据,创建新的 SFT 数据,并用其重新训练 DeepSeek-V3-Base。
  4. 最后,再对该模型进行额外的强化学习。

通过这些步骤,DeepSeek-R1 的性能达到甚至超越了 OpenAI-o1-1217。

R1 数据蒸馏模型:小模型也能有大作为

DeepSeek 团队还探索了将 DeepSeek-R1 蒸馏到更小的模型中。 使用 Qwen2.5-32B 作为基础模型进行直接蒸馏,其效果优于在基础上进行强化学习。 这表明,更大模型发现的推理模式对提高推理能力至关重要。 他们开源的蒸馏 Qwen 和 Llama 模型中,14B 模型大幅超越当前最先进的开源 QwQ-32B-Preview,而 32B 和 70B 模型在密集模型中树立了新的推理基准。

DeepSeek 团队还分享了许多失败的尝试,避免后人踩坑。 在过程奖励模型和蒙特卡洛树搜索算法上,他们未能取得进展。 但他们强调,这并不意味着这些方法不能开发出有效的推理模型。

未来,DeepSeek 计划在通用能力、解决语言混杂问题、优化提示词敏感问题,以及改进软件工程任务的性能等方面继续深入研究。

彩蛋:AI 撰写论文?

有英语母语者指出论文的措辞可能出自大模型之手。此外,DeepSeek 的许多论文将 “DeepSeek-AI” 列在作者列表首位,引发了人们的猜测与讨论。

DeepSeek-AI工具地址:【点击登录】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • DeepSeek‌
相关资讯
  • Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

  • 爱诗科技PixVerse V5视频模型全球上线,用户破亿背后藏着哪些狠活?

  • 谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

  • AI录音设备新标杆:Plaud AI Pro深度评测——续航30小时+智能屏幕如何重塑笔记场景?

  • Higgsfield上线Nano Banana:可24小时无限用,AI创作者狂喜!

热点资讯

谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

3天前
谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

7天前
2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

5天前
Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

2天前
重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

3天前
Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有