AI推理迎来新突破:扩散模型不再是“小弟”
话说这人工智能发展真是日新月异,以前我们总觉得扩散模型就是自回归模型的“跟屁虫”,只会生成漂亮图片。但现在,情况可不一样啦!加州大学洛杉矶分校(UCLA)和 Meta 的大神们搞了个大新闻,联合推出了一个叫做 d1 的新框架,直接把扩散模型的推理能力给提升了好几个档次!
d1框架:监督微调+强化学习,双管齐下
这 d1 框架可不是简单的升级,它用的是一套组合拳——监督微调(SFT)和强化学习(RL)!简单来说,它分两个阶段来训练一种叫做掩码大语言模型(dLLM)的家伙。*河蟹*阶段,先用高质量的推理过程给它“补习”,让它掌握基础知识和逻辑推理能力。就好比给小学生上课,打好基础。
第二阶段就厉害了,研究人员用了一种叫做 diffu-GRPO 的新型策略梯度方法。这个方法是专门为掩码 dLLM 量身定做的,能大幅提高推理效率。这就好比给小学生安排“特训”,提高解题速度和准确率!
解决了大难题:提升效率是关键
以前,用强化学习训练扩散模型有个大难题。传统的自回归模型可以通过计算生成序列的概率来优化,但是 dLLM 因为是迭代生成的,计算起来非常麻烦。为了解决这个问题,研究团队开发了一种高效的概率估计器,可以独立计算每个 token 的概率,大大减少了计算时间,提高了训练效率。这就像找到了学习的“捷径”,效率翻倍!
实验结果:效果杠杠的!
研究人员用 LLaDA-8B-Instruct 作为基础模型,测试了 d1-LLaDA 的性能,并与只使用 SFT 或 diffu-GRPO 训练的模型进行了比较。结果让人眼前一亮!d1-LLaDA 在多个数学和逻辑推理测试中表现出色,远远超过基础模型和单一方法。这说明“组合拳”的效果就是好,推理能力明显增强!
未来发展:AI推理更上一层楼
d1 框架的推出,预示着扩散模型在推理任务中的表现将迎来新的飞跃。这也为后续的研究提供了更多的可能性。研究人员相信,这个创新的框架将推动语言模型的进一步发展,帮助我们实现更复杂的推理和逻辑任务。未来的AI,将会更加“聪明”,更加“善解人意”!