• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

视觉AI防忽悠指南:HaloQuest数据集揭秘大模型幻觉

视觉AI防忽悠指南:HaloQuest数据集揭秘大模型幻觉
AI TOP100
2025-03-29 13:37:45

视觉AI靠谱吗?小心它“一本正经的胡说八道”!

AI视觉技术越来越火,自动驾驶、医疗诊断,哪哪都离不开它。但是,你有没有想过,如果AI给你“看图说话”的时候,说的是假话、错话,甚至胡编乱造,那可就麻烦大了!这种AI瞎编的情况,行内话叫“幻觉”。

现在的研究想解决这个问题,却发现数据不够用,也没法全面评估各种“幻觉”情况。想测一下AI在复杂场景下的真实水平,更是难上加难。


HaloQuest:专治AI“胡说八道”的利器

为了打破这些限制,哥伦比亚大学和Google DeepMind的牛人们,搞了个大新闻:他们搞了个全新的视觉问答数据集,名字叫HaloQuest。简单来说,就是给AI准备了各种各样的“坑”,专门测试它会不会掉进去,会不会“一本正经的胡说八道”。

他们用真实图片+合成图片,让数据集更丰富、更特别。合成图片用提示词控制生成,解决了传统数据集图片不够多样的问题。HaloQuest专门收集了三种VLM容易犯错的场景:

  1. “错误前提”陷阱:先给你个错误信息,看AI会不会被忽悠。
  2. “信息不足”迷雾:故意不给够信息,看AI会不会瞎猜。
  3. “高难度”挑战:专门搞些复杂的问题,考验AI的分析能力。

更厉害的是,HaloQuest还搞了个自动评估系统(AutoEval),用大语言模型(LLM)来给AI打分,就像请了个AI裁判!以前的评估方法只能选择题或者填空,根本没法测AI的真实水平。AutoEval能更全面地评估AI的回答,看看它是不是说得通顺、细节够不够丰富、前后是不是一致。这简直是VLM评估方式的一次革命!


HaloQuest是怎么炼成的?

HaloQuest数据集的制作过程,就像一场“机器+人工”的完美配合。真实图片从Open Images数据集里随机挑选,合成图片则来自Midjourney和Stable Diffusion这些热门的AI绘画平台。为了保证图片质量,必须是浏览量高、评价好的作品。

图片要符合两个标准:既要有趣、独特,又要容易理解。比如,罕见的场景、不常见的物体组合(像“穿着报纸的狗”),或者有视觉冲击力的图片,都算“有趣”。即使违反现实规律,图片也要看起来协调、清晰,让人能看懂。

图片选好后,人类标注者和大语言模型一起出题、写答案。问题要能考察AI的创造力、推理能力,还要能发现AI是不是有偏见。HaloQuest包含三种“诱导幻觉”的问题:

  • 错误前提问题:问题里包含和图片内容相反的信息,看AI会不会上当。
  • 视觉挑战性问题:要求AI仔细观察图片细节,比如数数、判断位置关系等等。
  • 信息不足问题:光看图片没法回答的问题,看AI会不会乱猜。

为了提高效率,HaloQuest还让LLM自动生成图像描述,然后把描述拆成一个个小句子,让人类标注者判断真假,再根据判断结果生成问答对。

最后,还要经过一轮筛选:先让厉害的VQA模型回答问题,再由经验丰富的人类标注者审核,确保问题有挑战性、答案清晰。太简单的问题直接PASS,模棱两可的答案也要修改。


自动评估:AI当裁判,靠谱吗?

为了大规模评估VLM的“幻觉”情况,HaloQuest搞了个基于LLM的自动评估方法。虽然原则上,随便一个LLM都能做评估,但HaloQuest的方法更高效、更精准。

他们设计了一个叫Langfun的结构化提示,让Gemini模型准确提取模型回答和参考答案的关键信息,判断两者是否一致。这就像给Gemini模型装了个“火眼金睛”,让它能看穿AI的“谎言”。

实验结果:AI,你还有很长的路要走!

实验发现,现在的VLM在HaloQuest数据集上的表现,真让人捏把汗,幻觉率居高不下!这说明,AI的理解和推理能力还差得远,急需更靠谱的“防忽悠”方法。

关键发现:

  1. 模型越大越好?别天真了!更大的模型不一定幻觉率更低。小模型有时候反而表现更好。说明光靠堆参数没用,还得靠数据驱动的策略。
  2. Auto-Eval靠谱吗?放心!Auto-Eval和人工评估的结果很接近。以后大规模评估,就靠它了!
  3. 微调有用吗?必须的!在HaloQuest上微调后,VLM的幻觉率明显降低,而且不影响它在其他测试中的表现。
  4. 泛化能力怎么样?还不错!经过HaloQuest训练的模型,在新的数据集上也能避免幻觉。

合成图像:AI训练的新方向?

研究还对比了模型在真实图像和合成图像上的表现。虽然大多数模型在真实图像上的幻觉率更高,但合成图像上的幻觉率也不容忽视。合成图像在数据集构建中有独特的优势:

  • 成本低、可扩展:合成图像能快速扩大数据集规模。
  • 降低幻觉率:实验表明,加入合成图像有助于降低模型的幻觉率。
  • 潜力巨大:随着图像生成技术的发展,合成图像的难度会越来越高。
  • 应用广泛:图像生成技术越来越普及,确保模型在合成图像上不犯错非常重要。


“幻觉”是怎么产生的?

研究分析了模型在HaloQuest三种问题上的表现:

  • 错误前提问题:开源模型表现很差,GPT-4稍微好点。
  • 信息不足问题:模型普遍不佳,容易瞎猜。
  • 视觉挑战性问题:模型表现略有提升,但GPT-4不如其他模型。

未来的研究方向:

  • 优化数据集:改进数据集构建方法,提升模型的抗幻觉能力。
  • 控制图像生成:用更先进的技术生成更具挑战性的合成图像。
  • 减少标注偏差:提高数据集的多样性和公平性。
  • 针对性优化:针对不同模型的弱点,开发定制化的“防忽悠”策略。


结论:AI防忽悠,任重道远!

HaloQuest是一个创新的视觉问答数据集,它能更精准地分析VLM的“幻觉”问题。实验表明,现在的AI模型还不够靠谱,需要不断改进。在HaloQuest上进行微调,可以显著降低AI的幻觉率。此外,Auto-Eval评估机制也能更全面地评估AI的回答。

HaloQuest不仅为VLM的幻觉问题研究提供了新的基准,还为未来多模态AI的发展指明了方向。相信随着技术的进步,AI会越来越安全、越来越靠谱!

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • Luma AI Dream Machine“指令修改”来袭,视频创作要变天啦!

  • 通义万相国际版Wan2.2开源第2天:解锁场景布置新姿势

  • 告别繁琐!Genspark超级智能体与Outlook集成开启高效办公新姿势

  • 无需真机!如何用Google Maps和LTX Studio打造电影级无人机航拍大片

  • NotebookLM焕新登场:视频摘要功能震撼来袭!

热点资讯

豆包AI生图技术深度解析:引领中文图像生成新突破

5天前
豆包AI生图技术深度解析:引领中文图像生成新突破

阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

4天前
阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

6天前
YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

8天前
Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破

2天前
创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有