Midjourney玩新花样!携手纽约大学搞出AI文本生成大动静
嘿,您听说了吗?那个靠AI图像生成技术火出圈的Midjourney,最近又整出大动静啦!这企业本来就有超多用户,之前还传出要自主研发计算和AI硬件的消息,这不,最近又和纽约大学(NYU)的机器学习专家搭上线了,一起搞出了一项关于训练文本生成大语言模型(LLMs)的最新研究成果。
跳出图像圈子,Midjourney盯上创意文本生成
Midjourney以前那可是在AI图像生成领域混得风生水起,靠扩散模型AI图像生成技术闯出了一片天。可这次它居然跑到文本生成领域搞创新,这操作可太让人意外了。这就好比一个厨子,本来炒菜炒得特别好,突然跑去研究怎么做蛋糕,还做得有模有样。
为啥Midjourney要这么做呢?其实啊,人家是想告诉咱,“一图胜千言”这老观念该改改啦,文本的创意潜力那也是相当大,值得好好挖掘挖掘。Midjourney用实际行动证明,它在AI领域的探索那可是全方位的,啥都想试试,啥都想做好。
告别千篇一律,新技术让AI写作花样多
这项研究成果发表在AI代码社区Hugging Face上,里面提出了两种新技术,一个叫“多样化直接偏好优化”(DDPO),另一个叫“多样化赔率比偏好优化”(DORPO)。这俩技术可厉害啦,核心目标就是让AI模型生成的文本范围更广,在保证读起来连贯、顺溜的前提下,内容能更丰富多样。
您想啊,现在的LLM在事实性问答或者代码辅助这些方面确实挺牛,能给出“最优解”。但一到创意写作领域,就有点力不从心了。为啥呢?因为创意写作很开放,同一个提示可以有好多不同的有效回应。比如说,让写个“关于月球上的狗的故事”,人类能想出宇航员遗落在月球上的宠物狗、未来犬类太空殖民地的狗狗,还有和外星生物成为朋友的流浪狗等等,各种情节都能想出来。
可经过指令调优的LLM呢,往往就会收敛到相似的故事线和主题上。这主要是因为后期训练技术太看重用户偏好了,光强化那些流行但重复的答案,还把变异性给平滑了,让模型倾向于生成“安全”但没啥新意的回应。而且现有的多样性促进技术,像温度调整啥的,一般只在模型推理阶段起作用,没融入到模型的学习过程中。这就导致AI生成的创意写作同质化严重,一点惊喜和深度都没有。
让AI模型别出心裁,新技术有妙招
为了克服这些毛病,Midjourney的研究团队对现有的偏好优化方法进行了改进,把DDPO和DORPO给整出来了。这俩创新的关键就在于利用“偏差”,也就是一个回应和其他回应的差异程度,来指导模型训练。
具体来说就是,在训练的时候,模型会收到一个写作提示和好几个可能的回答。然后,每个回答都会和其他同提示下的回答比一比,算出一个偏差分数。那些少见但质量又高的回应,在训练的时候就会被赋予更高的权重,这样模型就能从更多样化的例子里学习。把偏差融入到直接偏好优化(DPO)和赔率比偏好优化(ORPO)里,模型就能学会生成质量更高、差异更大的回应。这么一来,AI生成的故事就不会老是一个样,能探索更广泛的角色、设定和主题,就跟人类作家似的。
为了验证这俩新方法好不好用,研究人员用了Reddit社区r/writingPrompts上的数据集来训练LLM。他们选了Meta的Llama - 3.1 - 8B(一个80亿参数的模型)和Mistral AI的Mistral - 7B - v0.3(一个70亿参数的模型)当基础模型。
训练过程分两步,先进行监督式微调(SFT),再进行偏好优化。在偏好优化阶段,他们先用标准的DPO和ORPO当基线,然后用DDPO和DORPO引入基于偏差的权重。最后,通过自动评估(测测语义和文体多样性)和人工评估(看看输出的多样性和吸引力,再和GPT - 4o和Claude3.5比比)来评估模型性能。
实验结果显示,DDPO可太牛了,在保持输出质量的同时,比标准的DPO强多了。搭载DDPO的Llama - 3.1 - 8B在质量和多样性之间找到了最佳平衡点,它生成的回应比GPT - 4o还多样化,而且连贯性也不错。就算数据集规模变小了,DDPO模型照样能保持一定的多样性。
赋能各行业,AI创意内容潜力无限
这项研究对那些想用AI生成创意文本的企业来说,可太有用了。比如说在营销文案、企业故事讲述还有影视游戏剧本创作这些领域,提升AI生成内容的多样性和质量那是相当重要。对于负责LLM部署的AI团队来说,在保证质量的前提下增强输出的多样性,一直是个头疼的问题。Midjourney的研究就给解决这个难题提供了一种新思路。
这研究提出了一种新的LLM后训练方法,能让AI在不牺牲质量的情况下更有创造力。还提供了一种实用的替代方案,不用在推理时期做多样性调整(像调整温度啥的),直接把多样性融入到模型的学习过程中。这有望开发出更有吸引力的AI应用,像AI辅助写作工具和能动态调整回应的虚拟助手。
对于负责AI模型编排和自动化的专业人士来说,这项研究强调了训练阶段调整模型的重要性,能减少部署后进行后处理调整的需求。还提供了一种把自适应叙事引入AI驱动应用的方法,保证内容可变,质量还高。而且,这方法能让LLM的输出更像人类,对那些需要互动叙事、客户互动或者动态内容创建的应用来说,太关键了。
未来可期,新技术前景广阔
DDPO和DORPO的成功说明,以多样性为目标训练LLM,在创意写作方面能取得很大的进步。以后啊,把基于偏差的学习方法用到企业AI模型里,增强面向客户的应用中的响应多样性,探索这些方法在诗歌、剧本创作或者游戏故事等其他生成任务中的应用,还有开发平衡多样性和指令遵循能力的混合训练方法,这些都是很值得研究的方向。
Midjourney的研究团队还打算公开代码,这对那些想用这些技术的开发者来说,可是个好消息。有了这些创新技术,AI团队就能突破僵化、公式化的输出模式,打造出不仅智能,还特别有想象力的AI系统。
点击查看论文链接地址