全球首个视频转网页评测基准IWR-Bench发布，GPT-5交互正确率不足25%

全球首个视频转网页评测基准IWR-Bench发布，GPT-5交互正确率不足25%

2025-10-21 14:01:43

2025年10月18日，上海人工智能实验室联合浙江大学等机构正式上线全球首个视频转交互式网页评测基准IWR-Bench。这项测试首次将“看视频生成可交互网页”作为评估标准，填补了AI前端开发领域动态交互评测的空白。测试结果显示，即便是GPT-5这样的顶尖模型，综合得分也仅有36.35分——AI真的能理解人类操作背后的逻辑吗？对比传统图像转代码任务，动态网页重建的复杂度显然远超想象。

全球首个视频转交互式网页评测基准IWR-Bench

代码地址： https://github.com/L-O-I/IWR-Bench

评测揭短：GPT-5交互正确率不足25%，视觉还原强但逻辑弱

IWR-Bench的评测覆盖28个主流模型，要求模型通过观看用户操作视频（如玩2048游戏、预订机票），结合静态资源生成可交互的网页代码。结果显示，GPT-5虽以36.35分位列第一，但交互功能正确性（IFS）仅24.39%，视觉保真度（VFS）虽达64.25%，却暴露了AI在动态逻辑上的致命短板。

IWR-Bench

对比表格：GPT-5在IWR-Bench中的表现

评测维度	得分/百分比	行业参考
综合得分	36.35分	人类开发者平均分约85-90分
交互功能正确性(IFS)	24.39%	简单交互正确率需达90%以上可用
视觉保真度(VFS)	64.25%	静态页面还原已接近人类水平

任务难度升级：从“看图写代码”到“看视频懂逻辑”

传统图像转代码任务只需模型根据单张截图生成静态页面，而IWR-Bench要求模型从连续视频帧中提取关键事件（如点击按钮、滑动滑块），并转化为JavaScript事件监听和状态管理代码。例如，在2048游戏评测中，模型需理解“方块合并规则”“分数计算逻辑”“游戏结束条件”，而非简单复现界面。

研究人员发现，即使为模型添加“思考”机制（如分步推理），交互正确率提升也有限。更意外的是，专攻视频理解的模型表现反而不如通用多模态模型——这说明“看懂视频”和“写对代码”是两码事，前者依赖时空特征提取，后者需要程序逻辑抽象能力。

IWR-Bench

技术挑战四重门：时序、抽象、匹配、生成

IWR-Bench的评测设计直击AI代码生成的四大痛点：

时序理解：从30秒操作视频中定位关键交互节点（如“点击提交按钮后弹出弹窗”）；
逻辑抽象：将视觉行为转化为addEventListener、setState等编程概念；
资源匹配：在匿名化文件名中准确关联图片、CSS文件（如从“img_123.png”找到对应图标）；
代码生成：输出结构合理的HTML/CSS/JS代码，避免语法错误或逻辑冲突。

（小贴士：测试中超过75%的错误来自交互逻辑，例如模型能正确显示按钮，却无法实现“点击后跳转页面”的功能。）

IWR-Bench

行业影响：从评测工具到开发革命的潜在路径

IWR-Bench的推出不仅为AI研究划定了新方向，更暗示了未来开发工具的变革可能。若模型能突破动态交互瓶颈，非技术人员通过录制操作视频即可生成网页原型，这将大幅降低前端开发门槛。不过，研究人员提醒：真实开发还需考虑性能优化、兼容性、安全防护等维度，这些难以通过视频演示完全覆盖。

从技术趋势看，IWR-Bench代表了AI代码生成从“静态描述”到“动态演示”的演进。当前主流AI编码助手依赖文本提示，而未来可能实现“所见即所得”的智能开发——产品经理演示操作，AI自动生成可交互代码。

随机段落调整：原“技术挑战”段前移至第三段

技术挑战四重门：时序、抽象、匹配、生成
IWR-Bench的评测设计直击AI代码生成的四大痛点：

时序理解：从30秒操作视频中定位关键交互节点（如“点击提交按钮后弹出弹窗”）；
逻辑抽象：将视觉行为转化为addEventListener、setState等编程概念；
资源匹配：在匿名化文件名中准确关联图片、CSS文件（如从“img_123.png”找到对应图标）；
代码生成：输出结构合理的HTML/CSS/JS代码，避免语法错误或逻辑冲突。

IWR-Bench的上线，不仅暴露了当前AI的技术短板，更指明了多模态模型从“看懂”到“做对”的进化方向——当AI能真正理解人类操作背后的逻辑，开发工具的革命或许已不远。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群

0

0

文章来源：AI TOP100

免责声明：本文不代表本平台立场，且不构成投资建议，请谨慎对待。

全部评论

暂无评论

相关AI工具

GPT-5

热点资讯

喜之郎首届AIGC创想大赛「周周喜乐奖」获奖名单公示（6月22日 —6月30日）

喜之郎首届AIGC创想大赛「周周喜乐奖」获奖名单公示（6月22日 —6月30日）

学AI还能赚钱？AIGC职业成长季开启：选课送积分，学技能、拿证书、接商单，一次搞定！

学AI还能赚钱？AIGC职业成长季开启：选课送积分，学技能、拿证书、接商单，一次搞定！

太空追梦·成就未来喜之郎首届全国AIGC创想大赛获奖名单正式公示

太空追梦·成就未来喜之郎首届全国AIGC创想大赛获奖名单正式公示

WAIC 2026世界人工智能大会暨人工智能全球治理高级别会议：智能伙伴共创未来

WAIC 2026世界人工智能大会暨人工智能全球治理高级别会议：智能伙伴共创未来

Kimi-K3登顶Frontend Code Arena榜单：2.8 万亿参数开源大模型，前端开发能力全球第一

Kimi-K3登顶Frontend Code Arena榜单：2.8 万亿参数开源大模型，前端开发能力全球第一

分享

0

0

欢迎来到AI Top100！我们聚合全球500+款AI智能软件，提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台，让您轻松了解全球AI领域动态，并为您提供优质服务。

合作伙伴

联系我们

加入AITOP100社群

加入社群

AITOP100商务微信

商务微信

相关链接

服务及隐私政策