Midjourney联手纽约大学：突破AI文本生成创意瓶颈-AITOP100,AI资讯

Midjourney玩新花样！携手纽约大学搞出AI文本生成大动静

嘿，您听说了吗？那个靠AI图像生成技术火出圈的Midjourney，最近又整出大动静啦！这企业本来就有超多用户，之前还传出要自主研发计算和AI硬件的消息，这不，最近又和纽约大学（NYU）的机器学习专家搭上线了，一起搞出了一项关于训练文本生成大语言模型（LLMs）的最新研究成果。

跳出图像圈子，Midjourney盯上创意文本生成

Midjourney以前那可是在AI图像生成领域混得风生水起，靠扩散模型AI图像生成技术闯出了一片天。可这次它居然跑到文本生成领域搞创新，这操作可太让人意外了。这就好比一个厨子，本来炒菜炒得特别好，突然跑去研究怎么做蛋糕，还做得有模有样。

为啥Midjourney要这么做呢？其实啊，人家是想告诉咱，“一图胜千言”这老观念该改改啦，文本的创意潜力那也是相当大，值得好好挖掘挖掘。Midjourney用实际行动证明，它在AI领域的探索那可是全方位的，啥都想试试，啥都想做好。

告别千篇一律，新技术让AI写作花样多

这项研究成果发表在AI代码社区Hugging Face上，里面提出了两种新技术，一个叫“多样化直接偏好优化”（DDPO），另一个叫“多样化赔率比偏好优化”（DORPO）。这俩技术可厉害啦，核心目标就是让AI模型生成的文本范围更广，在保证读起来连贯、顺溜的前提下，内容能更丰富多样。

您想啊，现在的LLM在事实性问答或者代码辅助这些方面确实挺牛，能给出“最优解”。但一到创意写作领域，就有点力不从心了。为啥呢？因为创意写作很开放，同一个提示可以有好多不同的有效回应。比如说，让写个“关于月球上的狗的故事”，人类能想出宇航员遗落在月球上的宠物狗、未来犬类太空殖民地的狗狗，还有和外星生物成为朋友的流浪狗等等，各种情节都能想出来。

可经过指令调优的LLM呢，往往就会收敛到相似的故事线和主题上。这主要是因为后期训练技术太看重用户偏好了，光强化那些流行但重复的答案，还把变异性给平滑了，让模型倾向于生成“安全”但没啥新意的回应。而且现有的多样性促进技术，像温度调整啥的，一般只在模型推理阶段起作用，没融入到模型的学习过程中。这就导致AI生成的创意写作同质化严重，一点惊喜和深度都没有。

让AI模型别出心裁，新技术有妙招

为了克服这些毛病，Midjourney的研究团队对现有的偏好优化方法进行了改进，把DDPO和DORPO给整出来了。这俩创新的关键就在于利用“偏差”，也就是一个回应和其他回应的差异程度，来指导模型训练。

具体来说就是，在训练的时候，模型会收到一个写作提示和好几个可能的回答。然后，每个回答都会和其他同提示下的回答比一比，算出一个偏差分数。那些少见但质量又高的回应，在训练的时候就会被赋予更高的权重，这样模型就能从更多样化的例子里学习。把偏差融入到直接偏好优化（DPO）和赔率比偏好优化（ORPO）里，模型就能学会生成质量更高、差异更大的回应。这么一来，AI生成的故事就不会老是一个样，能探索更广泛的角色、设定和主题，就跟人类作家似的。

为了验证这俩新方法好不好用，研究人员用了Reddit社区r/writingPrompts上的数据集来训练LLM。他们选了Meta的Llama - 3.1 - 8B（一个80亿参数的模型）和Mistral AI的Mistral - 7B - v0.3（一个70亿参数的模型）当基础模型。

训练过程分两步，先进行监督式微调（SFT），再进行偏好优化。在偏好优化阶段，他们先用标准的DPO和ORPO当基线，然后用DDPO和DORPO引入基于偏差的权重。最后，通过自动评估（测测语义和文体多样性）和人工评估（看看输出的多样性和吸引力，再和GPT - 4o和Claude3.5比比）来评估模型性能。

实验结果显示，DDPO可太牛了，在保持输出质量的同时，比标准的DPO强多了。搭载DDPO的Llama - 3.1 - 8B在质量和多样性之间找到了最佳平衡点，它生成的回应比GPT - 4o还多样化，而且连贯性也不错。就算数据集规模变小了，DDPO模型照样能保持一定的多样性。

赋能各行业，AI创意内容潜力无限

这项研究对那些想用AI生成创意文本的企业来说，可太有用了。比如说在营销文案、企业故事讲述还有影视游戏剧本创作这些领域，提升AI生成内容的多样性和质量那是相当重要。对于负责LLM部署的AI团队来说，在保证质量的前提下增强输出的多样性，一直是个头疼的问题。Midjourney的研究就给解决这个难题提供了一种新思路。

这研究提出了一种新的LLM后训练方法，能让AI在不牺牲质量的情况下更有创造力。还提供了一种实用的替代方案，不用在推理时期做多样性调整（像调整温度啥的），直接把多样性融入到模型的学习过程中。这有望开发出更有吸引力的AI应用，像AI辅助写作工具和能动态调整回应的虚拟助手。

对于负责AI模型编排和自动化的专业人士来说，这项研究强调了训练阶段调整模型的重要性，能减少部署后进行后处理调整的需求。还提供了一种把自适应叙事引入AI驱动应用的方法，保证内容可变，质量还高。而且，这方法能让LLM的输出更像人类，对那些需要互动叙事、客户互动或者动态内容创建的应用来说，太关键了。

未来可期，新技术前景广阔

DDPO和DORPO的成功说明，以多样性为目标训练LLM，在创意写作方面能取得很大的进步。以后啊，把基于偏差的学习方法用到企业AI模型里，增强面向客户的应用中的响应多样性，探索这些方法在诗歌、剧本创作或者游戏故事等其他生成任务中的应用，还有开发平衡多样性和指令遵循能力的混合训练方法，这些都是很值得研究的方向。

Midjourney的研究团队还打算公开代码，这对那些想用这些技术的开发者来说，可是个好消息。有了这些创新技术，AI团队就能突破僵化、公式化的输出模式，打造出不仅智能，还特别有想象力的AI系统。

点击查看论文链接地址