TextGrad：华人学者突破，用文本反向传播优化AI系统-AITOP100,AI资讯

AI系统优化的新范式：TextGrad横空出世

人工智能（AI）的进步日新月异，驱动这些进步的，越来越多地是能协调多个大语言模型（LLM）和其他专业工具的复杂系统。然而，这些系统的构建和优化，长期以来依赖于领域专家的手工制作和启发式调整，缺乏自动化和高效性。

人工神经网络的发展历程也曾面临类似的困境。直到反向传播和自动分化技术的出现，才使得神经网络的优化变得简单可行，从而引发了人工智能领域的革命。

受此启发，由华人学者、斯坦福大学副教授 James Zou 领导的研究团队，创新性地提出了 TextGrad。TextGrad 是一种全新的框架，它通过文本自动化“微分”反向传播大语言模型（LLM）的文本反馈，来实现 AI 系统的自动优化。

TextGrad 的强大之处在于，只需几行代码，就能将用于分类数据的“逐步推理”提示，转化为更复杂、更适用于特定应用的提示。

TextGrad 具备以下三大核心优势：

通用高性能：TextGrad 并非针对特定应用领域定制，而是一个通用的高性能框架，适用于各种不同的 AI 系统优化任务。
易于使用：TextGrad 的 API 设计遵循 PyTorch 的抽象概念，用户可以轻松上手，实现知识的快速迁移。
完全开源：TextGrad 秉持开放精神，完全开源，促进学术交流和技术进步。

在 TextGrad 的框架下，一切皆为文本。它利用语言模型评估输出、评论输出，并更新输入。开发自动优化算法是利用 LLM 构建复合系统，并加速未来突破的关键挑战之一。TextGrad 利用自然语言反馈来批评并对系统的任何部分（从提示到输出，例如分子或治疗方案）提出改进建议，从而能够在各种任务中自动优化生成式人工智能系统。

Nature 重磅发表：TextGrad 引领 AI 优化新方向

这项突破性的研究成果以“Optimizing generative AI by backpropagating language model feedback”为题，发表在国际顶级科学期刊《Nature》上。

研究团队通过实验证明了 TextGrad 在 GPQA（博士级问题解答）和 LeetCode Hard（高难度编程问题）等任务中，能够实现 SOTA（state-of-the-art）的性能。

此外，他们还成功地利用 TextGrad 优化药物发现中的分子，以及优化治疗方案，从而改善患者的治疗效果。实验结果表明，TextGrad 无需修改框架，即可在众多领域发挥作用。

研究人员表示，TextGrad 可以帮助科学家和工程师更轻松地开发有影响力的生成式人工智能系统。

TextGrad：填补 LLM 系统“缺失的一环”

Pytorch 是构建复杂神经网络最流行的框架。Pytorch 成功的关键因素之一是其语法的灵活性和易用性。

TextGrad 提供了遵循 PyTorch 语法的 API，允许用户通过使用（可能不同的）语言模型提供的文本反馈来优化任何提示或结果。用户可以使用少量的示例数据将提示优化为语言模型。

此外，TextGrad 还允许语言模型自我完善其响应，评估由任何潜在的黑盒函数提供的输出，例如语言模型本身或代码解释器的输出。

研究团队在解法优化、代码优化、推理提示优化、放疗计划优化、复合人工智能系统优化等多个领域进行了深入研究。

在解法优化中，TextGrad 的优化目标是 LLM（问题 + 解决方案 + 测试时指令），优化的参数是解决方案，损失函数通过对解决方案的评估获得。每次迭代时，LLM 都会收到问题、当前解决方案和测试时指令的提示，要求对当前迭代进行评判。

代码优化的目标是修改代码以提高其正确性或运行时的复杂性。通过有限的本地单元测试监督，并通过测试指令进行自我评估，要求对当前的代码迭代进行判别。

在推理提示优化中，优化目标是 LLM（问题 + 代码 + 测试时指令 + 测试结果）。LLM 在推理任务中的表现对用于指导其行为的提示非常敏感。借助正确的提示，它们的推理能力就能得到显著提高。

在放射治疗领域，TextGrad 在实现 PTV 区域临床目标方面的能力优于临床计划，实现了更高的平均剂量和与规定剂量完全一致的 D95（D95 表示 95% 靶区/器官容积所接受的最小剂量）。

TextGrad 通过迭代改进平均剂量并降低 PTV 的剂量方差，从而实现临床目标。

经过 TextGrad 优化的计划对这些健康器官的平均剂量较低，表明对器官的保护效果优于人类优化计划。

最后，研究团队还研究了 TextGrad 优化涉及多个变量和较长推理链的复合 AI 系统的能力。

以 Chameleon 系统为例，其原始静态执行流程易导致错误累积。TextGrad 通过迭代优化每个模块的输出（如规划、图像描述、知识检索等），反向传播文本反馈以修正中间推理步骤，最终在 ScienceQA-IMG 任务上实现 7.7% 的准确率提升。

此外，TextGrad 支持联合优化多模态任务的指令提示、解决方案及评估提示，在空间推理数据集 HQH 上将准确率提升 9%。实验表明，TextGrad 能够灵活处理多变量、长链推理的复杂系统，显著提升整体性能，为自动化优化多组件 AI 系统提供了通用框架。

James Zou：冉冉升起的 AI 领域新星

James Zou 本科毕业于杜克大学，并于哈佛大学取得博士学位，现为斯坦福大学生物医学数据科学副教授，曾获被称为“诺奖风向标”的斯隆奖学金。

他的研究工作主要聚焦于使机器学习更加可靠、符合人类需求以及统计严谨，同时也涉及 AI 在人类疾病和健康方面的应用。

可以预见，随着人工智能的范式从训练单个模型转向优化涉及多个相互作用的 LLM 组件和工具的复合系统，自动优化器 TextGrad 将为训练大型复合 AI 模型开辟令人兴奋的机会。