DeepSeek：百位年轻AI天才如何炼成？揭秘创新背后的管理模式-AITOP100,AI资讯

DeepSeek：百位年轻AI天才如何炼成？揭秘创新背后的管理模式

罗福莉，这位被雷军亲自招入小米的“95后天才少女”，曾是DeepSeek的模型训练员。她揭示了DeepSeek人才策略的关键：年轻且优秀的应届毕业生。正是这群被OpenAI前政策主管Jack Clark称为“高深莫测的奇才”的年轻人，仅用600万美元就训练出了性能超越GPT-4o和Claude 3.5 Sonnet的DeepSeek-V3模型。

DeepSeek创始人梁文峰在接受36氪采访时表示，他们的员工大多是顶尖高校的应届毕业生、即将毕业的博士实习生，以及毕业不久的青年才俊。然而，仅仅拥有天才团队并不足以实现DeepSeek的AGI愿景。通过多方采访，《智能涌现》发现，DeepSeek的成功离不开其独特的团队管理方式。

在许多AI公司纷纷采用垂直管理模式以应对团队规模快速扩张时，DeepSeek自2023年5月成立以来，始终将团队规模控制在150人左右，并采用淡化职级、高度扁平的文化来确定研究课题和调动资源。这种非传统的组织形式，孕育了创新。

百名年轻天才，不赛马，不带团队

多数AI公司倾向于聘请经验丰富的技术老将。例如，王小川为百川智能请来了搜狗老班底；姜大昕在创立阶跃星辰时，也招募了微软亚研院的老同事；零一万物的联合创始人团队更是星光熠熠，包括来自微软亚研院的黄文灏、前谷歌大脑的潘欣以及前贝壳集团的李先刚。

然而，DeepSeek却偏爱没有工作经验的年轻人。一位曾与DeepSeek合作的猎头透露，DeepSeek不招资深技术人员，3-5年工作经验已是上限，超过8年的基本不予考虑。

以DeepSeekMath为例，核心作者朱琪豪、邵智宏和Peiyi Wang在博士实习期间就完成了相关研究。V3的研究成员代达劢也是在2024年才从北大获得博士学位。

北京大学

在衡量年轻毕业生是否“优秀”时，DeepSeek除了看重毕业院校，还极其重视竞赛成绩。多位与DeepSeek合作的第三方机构表示，DeepSeek对竞赛成绩要求极高，“基本金奖以下就不要了”。一位DeepSeek成员曾在网络上分享，自己毕业于北大，在三场ACM/ICPC比赛中均获金奖，本科期间发表了6篇论文，其中两篇是共同一作。

《智能涌现》了解到，幻方量化早在2022年就开始为DeepSeek组建AI团队。2023年5月DeepSeek正式成立时，团队已拥有近百名工程师。如今，不算杭州的基础设施团队，北京团队的工程师也有百人规模。DeepSeek V3的技术报告致谢名单显示，参与研究的工程师已达139人。

尽管与动辄千人的字节、百度模型团队相比，DeepSeek的人员规模相形见绌，但在“人才密度”远超“人员规模”的AI创新领域，DeepSeek被许多人视为一支精锐之师。

为了管理和留住这群年轻天才，DeepSeek一方面“粗暴地”砸钱，开出对标字节研发的薪资，并根据人才潜力给出更高的薪酬；另一方面，只要梁文峰认为技术方案可行，算力资源“不设限”。

此外，DeepSeek还采取了高度扁平化的“学院派”管理模式。每个成员不带团队，而是根据具体目标组成不同的研究小组。组内成员没有固定分工和上下级关系，而是“各自负责擅长的部分，遇到难题就共同讨论或向其他组的专家请教”。梁文峰曾将这种组织形式描述为“自下而上”、“自然分工”，强调“每个人自带想法，无需推动。当一个想法显示出潜力，我们也会自上而下地调配资源。”

许多创业者也将扁平化视为适用于创新业务的组织模式。王慧文在创立光年之外之初就曾表示：“平等沟通对建立学习型组织至关重要，淡化岗位身份会鼓励大家畅所欲言。” OpenAI联合创始人Greg Brockman也曾指出，OpenAI的岗位不分研究员和工程师，统称“Member of Technical Staff”，这意味着“初级工程师”也能在研究项目中发挥重要作用。

MLA（V3训练成本大降的关键训练架构）的诞生，正是“自然分工”的典型案例。梁文峰表示，MLA最初源于一位年轻研究员的个人兴趣，“为此我们组建了一个团队，花了几个月时间才成功运行”。 DeepSeek内部不推行赛马机制。一位曾接触过DeepSeek团队的AI从业者表示，这是为了避免人力和资源浪费，“也不利于人才保留和团队共识的形成，赛马机制造成的内耗太严重了”。

“想要创新，团队必须摆脱惯性”

2023年，国内顶尖AI人才的画像是：学术大牛、大厂高管和创业老兵，这些人才都需经过职级、产品影响力等职场标准验证。然而，2024年以来，AI行业的用人标准正在发生变化，更多未经职场验证、刚毕业不久的年轻人正走向前台。

Sora负责人Aditya Ramesh在2024年智源大会上表示，OpenAI的招聘策略与其他组织截然不同，“我们更看重那些有高潜力，但可能还没机会取得正式学术成就的人”。DiT（Sora底层架构）作者谢赛宁也提到，许多成功的研究人员并没有接受过传统的研究培训。

谢赛宁和Aditya Ramesh在智源大会上的对谈

DeepSeek的用人策略也体现了类似的观念。加入DeepSeek的年轻人，许多并没有模型训练的相关经验，甚至不是计算机专业出身。一位毕业于物理专业的DeepSeek成员曾公开表示，自己是偶然机会自学了计算机，“由于工作太前沿，几乎没有参考资料，一切问题都需要自己设计方案并实践解决”。另一位DeepSeek运维工程师也表示，加入公司前自己没有任何相关经验。

“想要创新，团队必须摆脱惯性。”一位AI从业者认为，国内多数AI公司已陷入了模仿OpenAI的惯性，例如选择Transformer算法和遵循Scaling Law进行训练，认为“跟随已被验证的路径能够降低失败风险”。然而，人们往往忽略，在GPT-3被验证之前，Transformer和Scaling Law也曾被视为“疯狂的想法”。

“DeepSeek没有为成员设定硬性kpi，也没有商业化压力。成员缺乏模型训练的经验，反而使他们不会抄袭OpenAI的‘标准答案’。”上述从业者表示，一位DeepSeek员工曾透露，DeepSeek从一开始就对算法架构进行反思。MLA并非其他厂商无法实现，而是他们不愿推翻“既定的正确答案”。

DeepSeek的底气源于充足的算力和资金，“所有的资源都投在模型训练上，没有其他业务，也不做烧钱的投放，省了不少钱。”

一位与DeepSeek合作过的猎头总结说：“DeepSeek不招有名的大佬，因为他们缺乏创新的动力。曾经的成功者背负着不能失败的包袱，创新的重任应由新人来承担。”

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html