视觉AI靠谱吗?小心它“一本正经的胡说八道”!
AI视觉技术越来越火,自动驾驶、医疗诊断,哪哪都离不开它。但是,你有没有想过,如果AI给你“看图说话”的时候,说的是假话、错话,甚至胡编乱造,那可就麻烦大了!这种AI瞎编的情况,行内话叫“幻觉”。
现在的研究想解决这个问题,却发现数据不够用,也没法全面评估各种“幻觉”情况。想测一下AI在复杂场景下的真实水平,更是难上加难。
HaloQuest:专治AI“胡说八道”的利器
为了打破这些限制,哥伦比亚大学和Google DeepMind的牛人们,搞了个大新闻:他们搞了个全新的视觉问答数据集,名字叫HaloQuest。简单来说,就是给AI准备了各种各样的“坑”,专门测试它会不会掉进去,会不会“一本正经的胡说八道”。
他们用真实图片+合成图片,让数据集更丰富、更特别。合成图片用提示词控制生成,解决了传统数据集图片不够多样的问题。HaloQuest专门收集了三种VLM容易犯错的场景:
- “错误前提”陷阱:先给你个错误信息,看AI会不会被忽悠。
- “信息不足”迷雾:故意不给够信息,看AI会不会瞎猜。
- “高难度”挑战:专门搞些复杂的问题,考验AI的分析能力。
更厉害的是,HaloQuest还搞了个自动评估系统(AutoEval),用大语言模型(LLM)来给AI打分,就像请了个AI裁判!以前的评估方法只能选择题或者填空,根本没法测AI的真实水平。AutoEval能更全面地评估AI的回答,看看它是不是说得通顺、细节够不够丰富、前后是不是一致。这简直是VLM评估方式的一次革命!
HaloQuest是怎么炼成的?
HaloQuest数据集的制作过程,就像一场“机器+人工”的完美配合。真实图片从Open Images数据集里随机挑选,合成图片则来自Midjourney和Stable Diffusion这些热门的AI绘画平台。为了保证图片质量,必须是浏览量高、评价好的作品。
图片要符合两个标准:既要有趣、独特,又要容易理解。比如,罕见的场景、不常见的物体组合(像“穿着报纸的狗”),或者有视觉冲击力的图片,都算“有趣”。即使违反现实规律,图片也要看起来协调、清晰,让人能看懂。
图片选好后,人类标注者和大语言模型一起出题、写答案。问题要能考察AI的创造力、推理能力,还要能发现AI是不是有偏见。HaloQuest包含三种“诱导幻觉”的问题:
- 错误前提问题:问题里包含和图片内容相反的信息,看AI会不会上当。
- 视觉挑战性问题:要求AI仔细观察图片细节,比如数数、判断位置关系等等。
- 信息不足问题:光看图片没法回答的问题,看AI会不会乱猜。
为了提高效率,HaloQuest还让LLM自动生成图像描述,然后把描述拆成一个个小句子,让人类标注者判断真假,再根据判断结果生成问答对。
最后,还要经过一轮筛选:先让厉害的VQA模型回答问题,再由经验丰富的人类标注者审核,确保问题有挑战性、答案清晰。太简单的问题直接PASS,模棱两可的答案也要修改。
自动评估:AI当裁判,靠谱吗?
为了大规模评估VLM的“幻觉”情况,HaloQuest搞了个基于LLM的自动评估方法。虽然原则上,随便一个LLM都能做评估,但HaloQuest的方法更高效、更精准。
他们设计了一个叫Langfun的结构化提示,让Gemini模型准确提取模型回答和参考答案的关键信息,判断两者是否一致。这就像给Gemini模型装了个“火眼金睛”,让它能看穿AI的“谎言”。
实验结果:AI,你还有很长的路要走!
实验发现,现在的VLM在HaloQuest数据集上的表现,真让人捏把汗,幻觉率居高不下!这说明,AI的理解和推理能力还差得远,急需更靠谱的“防忽悠”方法。
关键发现:
- 模型越大越好?别天真了!更大的模型不一定幻觉率更低。小模型有时候反而表现更好。说明光靠堆参数没用,还得靠数据驱动的策略。
- Auto-Eval靠谱吗?放心!Auto-Eval和人工评估的结果很接近。以后大规模评估,就靠它了!
- 微调有用吗?必须的!在HaloQuest上微调后,VLM的幻觉率明显降低,而且不影响它在其他测试中的表现。
- 泛化能力怎么样?还不错!经过HaloQuest训练的模型,在新的数据集上也能避免幻觉。
合成图像:AI训练的新方向?
研究还对比了模型在真实图像和合成图像上的表现。虽然大多数模型在真实图像上的幻觉率更高,但合成图像上的幻觉率也不容忽视。合成图像在数据集构建中有独特的优势:
- 成本低、可扩展:合成图像能快速扩大数据集规模。
- 降低幻觉率:实验表明,加入合成图像有助于降低模型的幻觉率。
- 潜力巨大:随着图像生成技术的发展,合成图像的难度会越来越高。
- 应用广泛:图像生成技术越来越普及,确保模型在合成图像上不犯错非常重要。
“幻觉”是怎么产生的?
研究分析了模型在HaloQuest三种问题上的表现:
- 错误前提问题:开源模型表现很差,GPT-4稍微好点。
- 信息不足问题:模型普遍不佳,容易瞎猜。
- 视觉挑战性问题:模型表现略有提升,但GPT-4不如其他模型。
未来的研究方向:
- 优化数据集:改进数据集构建方法,提升模型的抗幻觉能力。
- 控制图像生成:用更先进的技术生成更具挑战性的合成图像。
- 减少标注偏差:提高数据集的多样性和公平性。
- 针对性优化:针对不同模型的弱点,开发定制化的“防忽悠”策略。
结论:AI防忽悠,任重道远!
HaloQuest是一个创新的视觉问答数据集,它能更精准地分析VLM的“幻觉”问题。实验表明,现在的AI模型还不够靠谱,需要不断改进。在HaloQuest上进行微调,可以显著降低AI的幻觉率。此外,Auto-Eval评估机制也能更全面地评估AI的回答。
HaloQuest不仅为VLM的幻觉问题研究提供了新的基准,还为未来多模态AI的发展指明了方向。相信随着技术的进步,AI会越来越安全、越来越靠谱!