扩散模型推理大升级！d1框架：让AI更懂数学和逻辑-AITOP100,AI资讯

AI推理迎来新突破：扩散模型不再是“小弟”

话说这人工智能发展真是日新月异，以前我们总觉得扩散模型就是自回归模型的“跟屁虫”，只会生成漂亮图片。但现在，情况可不一样啦！加州大学洛杉矶分校（UCLA）和 Meta 的大神们搞了个大新闻，联合推出了一个叫做 d1 的新框架，直接把扩散模型的推理能力给提升了好几个档次！

d1框架：监督微调+强化学习，双管齐下

这 d1 框架可不是简单的升级，它用的是一套组合拳——监督微调(SFT)和强化学习(RL)！简单来说，它分两个阶段来训练一种叫做掩码大语言模型（dLLM）的家伙。*河蟹*阶段，先用高质量的推理过程给它“补习”，让它掌握基础知识和逻辑推理能力。就好比给小学生上课，打好基础。

第二阶段就厉害了，研究人员用了一种叫做 diffu-GRPO 的新型策略梯度方法。这个方法是专门为掩码 dLLM 量身定做的，能大幅提高推理效率。这就好比给小学生安排“特训”，提高解题速度和准确率！

解决了大难题：提升效率是关键

以前，用强化学习训练扩散模型有个大难题。传统的自回归模型可以通过计算生成序列的概率来优化，但是 dLLM 因为是迭代生成的，计算起来非常麻烦。为了解决这个问题，研究团队开发了一种高效的概率估计器，可以独立计算每个 token 的概率，大大减少了计算时间，提高了训练效率。这就像找到了学习的“捷径”，效率翻倍！

实验结果：效果杠杠的！

研究人员用 LLaDA-8B-Instruct 作为基础模型，测试了 d1-LLaDA 的性能，并与只使用 SFT 或 diffu-GRPO 训练的模型进行了比较。结果让人眼前一亮！d1-LLaDA 在多个数学和逻辑推理测试中表现出色，远远超过基础模型和单一方法。这说明“组合拳”的效果就是好，推理能力明显增强！

未来发展：AI推理更上一层楼

d1 框架的推出，预示着扩散模型在推理任务中的表现将迎来新的飞跃。这也为后续的研究提供了更多的可能性。研究人员相信，这个创新的框架将推动语言模型的进一步发展，帮助我们实现更复杂的推理和逻辑任务。未来的AI，将会更加“聪明”，更加“善解人意”！

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯