• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI音乐
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

全球首个视频转网页评测基准IWR-Bench发布,GPT-5交互正确率不足25%

全球首个视频转网页评测基准IWR-Bench发布,GPT-5交互正确率不足25%
AI TOP100
2025-10-21 14:01:43

2025年10月18日,上海人工智能实验室联合浙江大学等机构正式上线全球首个视频转交互式网页评测基准IWR-Bench。这项测试首次将“看视频生成可交互网页”作为评估标准,填补了AI前端开发领域动态交互评测的空白。测试结果显示,即便是GPT-5这样的顶尖模型,综合得分也仅有36.35分——AI真的能理解人类操作背后的逻辑吗?对比传统图像转代码任务,动态网页重建的复杂度显然远超想象。

全球首个视频转交互式网页评测基准IWR-Bench

代码地址: https://github.com/L-O-I/IWR-Bench

评测揭短:GPT-5交互正确率不足25%,视觉还原强但逻辑弱

IWR-Bench的评测覆盖28个主流模型,要求模型通过观看用户操作视频(如玩2048游戏、预订机票),结合静态资源生成可交互的网页代码。结果显示,GPT-5虽以36.35分位列第一,但交互功能正确性(IFS)仅24.39%,视觉保真度(VFS)虽达64.25%,却暴露了AI在动态逻辑上的致命短板。

IWR-Bench

对比表格:GPT-5在IWR-Bench中的表现

评测维度 得分/百分比 行业参考
综合得分 36.35分 人类开发者平均分约85-90分
交互功能正确性(IFS) 24.39% 简单交互正确率需达90%以上可用
视觉保真度(VFS) 64.25% 静态页面还原已接近人类水平

任务难度升级:从“看图写代码”到“看视频懂逻辑”

传统图像转代码任务只需模型根据单张截图生成静态页面,而IWR-Bench要求模型从连续视频帧中提取关键事件(如点击按钮、滑动滑块),并转化为JavaScript事件监听和状态管理代码。例如,在2048游戏评测中,模型需理解“方块合并规则”“分数计算逻辑”“游戏结束条件”,而非简单复现界面。

研究人员发现,即使为模型添加“思考”机制(如分步推理),交互正确率提升也有限。更意外的是,专攻视频理解的模型表现反而不如通用多模态模型——这说明“看懂视频”和“写对代码”是两码事,前者依赖时空特征提取,后者需要程序逻辑抽象能力。

IWR-Bench

技术挑战四重门:时序、抽象、匹配、生成

IWR-Bench的评测设计直击AI代码生成的四大痛点:

  1. 时序理解:从30秒操作视频中定位关键交互节点(如“点击提交按钮后弹出弹窗”);
  2. 逻辑抽象:将视觉行为转化为addEventListener、setState等编程概念;
  3. 资源匹配:在匿名化文件名中准确关联图片、CSS文件(如从“img_123.png”找到对应图标);
  4. 代码生成:输出结构合理的HTML/CSS/JS代码,避免语法错误或逻辑冲突。

(小贴士:测试中超过75%的错误来自交互逻辑,例如模型能正确显示按钮,却无法实现“点击后跳转页面”的功能。)

IWR-Bench

行业影响:从评测工具到开发革命的潜在路径

IWR-Bench的推出不仅为AI研究划定了新方向,更暗示了未来开发工具的变革可能。若模型能突破动态交互瓶颈,非技术人员通过录制操作视频即可生成网页原型,这将大幅降低前端开发门槛。不过,研究人员提醒:真实开发还需考虑性能优化、兼容性、安全防护等维度,这些难以通过视频演示完全覆盖。

从技术趋势看,IWR-Bench代表了AI代码生成从“静态描述”到“动态演示”的演进。当前主流AI编码助手依赖文本提示,而未来可能实现“所见即所得”的智能开发——产品经理演示操作,AI自动生成可交互代码。

随机段落调整:原“技术挑战”段前移至第三段

技术挑战四重门:时序、抽象、匹配、生成
IWR-Bench的评测设计直击AI代码生成的四大痛点:

  1. 时序理解:从30秒操作视频中定位关键交互节点(如“点击提交按钮后弹出弹窗”);
  2. 逻辑抽象:将视觉行为转化为addEventListener、setState等编程概念;
  3. 资源匹配:在匿名化文件名中准确关联图片、CSS文件(如从“img_123.png”找到对应图标);
  4. 代码生成:输出结构合理的HTML/CSS/JS代码,避免语法错误或逻辑冲突。

IWR-Bench的上线,不仅暴露了当前AI的技术短板,更指明了多模态模型从“看懂”到“做对”的进化方向——当AI能真正理解人类操作背后的逻辑,开发工具的革命或许已不远。


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

aitop100官方交流30群

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • GPT-5
相关资讯
  • 火山引擎豆包语音识别2.0正式上线:多语言、多模态,识别更精准!

  • 国内首个孤独症儿童绘本智能体上线:“追星星的AI”点亮特殊阅读之光

  • 生数科技Vidu“生图全家桶”Q2版本正式上线,免费福利限时开启!

  • 可灵AI数字人Avatar2.0重磅升级:AI一键生成5分钟情感演唱视频!数字人告别“木头脸”

  • 众擎T800发布:全球首款搭载固态动力电池人形机器人,18万元起

热点资讯

每日AI资讯-2025年12月01日

4天前
每日AI资讯-2025年12月01日

每日AI资讯-2025年12月02日

3天前
每日AI资讯-2025年12月02日

每日AI资讯-2025年12月03日

2天前
每日AI资讯-2025年12月03日

来画发布全国首个支持1000秒AI漫剧平台,一键生成动漫短片

4天前
来画发布全国首个支持1000秒AI漫剧平台,一键生成动漫短片

全国大学生AI+体育创意视频大赛领奖流程通知

4天前
全国大学生AI+体育创意视频大赛领奖流程通知
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有