DeepSeek:百位年轻AI天才如何炼成?揭秘创新背后的管理模式
罗福莉,这位被雷军亲自招入小米的“95后天才少女”,曾是DeepSeek的模型训练员。她揭示了DeepSeek人才策略的关键:年轻且优秀的应届毕业生。正是这群被OpenAI前政策主管Jack Clark称为“高深莫测的奇才”的年轻人,仅用600万美元就训练出了性能超越GPT-4o和Claude 3.5 Sonnet的DeepSeek-V3模型。
DeepSeek创始人梁文峰在接受36氪采访时表示,他们的员工大多是顶尖高校的应届毕业生、即将毕业的博士实习生,以及毕业不久的青年才俊。然而,仅仅拥有天才团队并不足以实现DeepSeek的AGI愿景。通过多方采访,《智能涌现》发现,DeepSeek的成功离不开其独特的团队管理方式。
在许多AI公司纷纷采用垂直管理模式以应对团队规模快速扩张时,DeepSeek自2023年5月成立以来,始终将团队规模控制在150人左右,并采用淡化职级、高度扁平的文化来确定研究课题和调动资源。这种非传统的组织形式,孕育了创新。
百名年轻天才,不赛马,不带团队
多数AI公司倾向于聘请经验丰富的技术老将。例如,王小川为百川智能请来了搜狗老班底;姜大昕在创立阶跃星辰时,也招募了微软亚研院的老同事;零一万物的联合创始人团队更是星光熠熠,包括来自微软亚研院的黄文灏、前谷歌大脑的潘欣以及前贝壳集团的李先刚。
然而,DeepSeek却偏爱没有工作经验的年轻人。一位曾与DeepSeek合作的猎头透露,DeepSeek不招资深技术人员,3-5年工作经验已是上限,超过8年的基本不予考虑。
以DeepSeekMath为例,核心作者朱琪豪、邵智宏和Peiyi Wang在博士实习期间就完成了相关研究。V3的研究成员代达劢也是在2024年才从北大获得博士学位。
在衡量年轻毕业生是否“优秀”时,DeepSeek除了看重毕业院校,还极其重视竞赛成绩。多位与DeepSeek合作的第三方机构表示,DeepSeek对竞赛成绩要求极高,“基本金奖以下就不要了”。一位DeepSeek成员曾在网络上分享,自己毕业于北大,在三场ACM/ICPC比赛中均获金奖,本科期间发表了6篇论文,其中两篇是共同一作。
《智能涌现》了解到,幻方量化早在2022年就开始为DeepSeek组建AI团队。2023年5月DeepSeek正式成立时,团队已拥有近百名工程师。如今,不算杭州的基础设施团队,北京团队的工程师也有百人规模。DeepSeek V3的技术报告致谢名单显示,参与研究的工程师已达139人。
尽管与动辄千人的字节、百度模型团队相比,DeepSeek的人员规模相形见绌,但在“人才密度”远超“人员规模”的AI创新领域,DeepSeek被许多人视为一支精锐之师。
为了管理和留住这群年轻天才,DeepSeek一方面“粗暴地”砸钱,开出对标字节研发的薪资,并根据人才潜力给出更高的薪酬;另一方面,只要梁文峰认为技术方案可行,算力资源“不设限”。
此外,DeepSeek还采取了高度扁平化的“学院派”管理模式。每个成员不带团队,而是根据具体目标组成不同的研究小组。组内成员没有固定分工和上下级关系,而是“各自负责擅长的部分,遇到难题就共同讨论或向其他组的专家请教”。梁文峰曾将这种组织形式描述为“自下而上”、“自然分工”,强调“每个人自带想法,无需推动。当一个想法显示出潜力,我们也会自上而下地调配资源。”
许多创业者也将扁平化视为适用于创新业务的组织模式。王慧文在创立光年之外之初就曾表示:“平等沟通对建立学习型组织至关重要,淡化岗位身份会鼓励大家畅所欲言。” OpenAI联合创始人Greg Brockman也曾指出,OpenAI的岗位不分研究员和工程师,统称“Member of Technical Staff”,这意味着“初级工程师”也能在研究项目中发挥重要作用。
MLA(V3训练成本大降的关键训练架构)的诞生,正是“自然分工”的典型案例。梁文峰表示,MLA最初源于一位年轻研究员的个人兴趣,“为此我们组建了一个团队,花了几个月时间才成功运行”。 DeepSeek内部不推行赛马机制。一位曾接触过DeepSeek团队的AI从业者表示,这是为了避免人力和资源浪费,“也不利于人才保留和团队共识的形成,赛马机制造成的内耗太严重了”。
“想要创新,团队必须摆脱惯性”
2023年,国内顶尖AI人才的画像是:学术大牛、大厂高管和创业老兵,这些人才都需经过职级、产品影响力等职场标准验证。然而,2024年以来,AI行业的用人标准正在发生变化,更多未经职场验证、刚毕业不久的年轻人正走向前台。
Sora负责人Aditya Ramesh在2024年智源大会上表示,OpenAI的招聘策略与其他组织截然不同,“我们更看重那些有高潜力,但可能还没机会取得正式学术成就的人”。DiT(Sora底层架构)作者谢赛宁也提到,许多成功的研究人员并没有接受过传统的研究培训。
DeepSeek的用人策略也体现了类似的观念。加入DeepSeek的年轻人,许多并没有模型训练的相关经验,甚至不是计算机专业出身。一位毕业于物理专业的DeepSeek成员曾公开表示,自己是偶然机会自学了计算机,“由于工作太前沿,几乎没有参考资料,一切问题都需要自己设计方案并实践解决”。另一位DeepSeek运维工程师也表示,加入公司前自己没有任何相关经验。
“想要创新,团队必须摆脱惯性。”一位AI从业者认为,国内多数AI公司已陷入了模仿OpenAI的惯性,例如选择Transformer算法和遵循Scaling Law进行训练,认为“跟随已被验证的路径能够降低失败风险”。然而,人们往往忽略,在GPT-3被验证之前,Transformer和Scaling Law也曾被视为“疯狂的想法”。
“DeepSeek没有为成员设定硬性kpi,也没有商业化压力。成员缺乏模型训练的经验,反而使他们不会抄袭OpenAI的‘标准答案’。”上述从业者表示,一位DeepSeek员工曾透露,DeepSeek从一开始就对算法架构进行反思。MLA并非其他厂商无法实现,而是他们不愿推翻“既定的正确答案”。
DeepSeek的底气源于充足的算力和资金,“所有的资源都投在模型训练上,没有其他业务,也不做烧钱的投放,省了不少钱。”
一位与DeepSeek合作过的猎头总结说:“DeepSeek不招有名的大佬,因为他们缺乏创新的动力。曾经的成功者背负着不能失败的包袱,创新的重任应由新人来承担。”
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html