2025年10月18日,上海人工智能实验室联合浙江大学等机构正式上线全球首个视频转交互式网页评测基准IWR-Bench。这项测试首次将“看视频生成可交互网页”作为评估标准,填补了AI前端开发领域动态交互评测的空白。测试结果显示,即便是GPT-5这样的顶尖模型,综合得分也仅有36.35分——AI真的能理解人类操作背后的逻辑吗?对比传统图像转代码任务,动态网页重建的复杂度显然远超想象。

代码地址: https://github.com/L-O-I/IWR-Bench
评测揭短:GPT-5交互正确率不足25%,视觉还原强但逻辑弱
IWR-Bench的评测覆盖28个主流模型,要求模型通过观看用户操作视频(如玩2048游戏、预订机票),结合静态资源生成可交互的网页代码。结果显示,GPT-5虽以36.35分位列第一,但交互功能正确性(IFS)仅24.39%,视觉保真度(VFS)虽达64.25%,却暴露了AI在动态逻辑上的致命短板。

对比表格:GPT-5在IWR-Bench中的表现
| 评测维度 | 得分/百分比 | 行业参考 |
|---|---|---|
| 综合得分 | 36.35分 | 人类开发者平均分约85-90分 |
| 交互功能正确性(IFS) | 24.39% | 简单交互正确率需达90%以上可用 |
| 视觉保真度(VFS) | 64.25% | 静态页面还原已接近人类水平 |
任务难度升级:从“看图写代码”到“看视频懂逻辑”
传统图像转代码任务只需模型根据单张截图生成静态页面,而IWR-Bench要求模型从连续视频帧中提取关键事件(如点击按钮、滑动滑块),并转化为JavaScript事件监听和状态管理代码。例如,在2048游戏评测中,模型需理解“方块合并规则”“分数计算逻辑”“游戏结束条件”,而非简单复现界面。
研究人员发现,即使为模型添加“思考”机制(如分步推理),交互正确率提升也有限。更意外的是,专攻视频理解的模型表现反而不如通用多模态模型——这说明“看懂视频”和“写对代码”是两码事,前者依赖时空特征提取,后者需要程序逻辑抽象能力。

技术挑战四重门:时序、抽象、匹配、生成
IWR-Bench的评测设计直击AI代码生成的四大痛点:
- 时序理解:从30秒操作视频中定位关键交互节点(如“点击提交按钮后弹出弹窗”);
- 逻辑抽象:将视觉行为转化为
addEventListener、setState等编程概念; - 资源匹配:在匿名化文件名中准确关联图片、CSS文件(如从“img_123.png”找到对应图标);
- 代码生成:输出结构合理的HTML/CSS/JS代码,避免语法错误或逻辑冲突。
(小贴士:测试中超过75%的错误来自交互逻辑,例如模型能正确显示按钮,却无法实现“点击后跳转页面”的功能。)

行业影响:从评测工具到开发革命的潜在路径
IWR-Bench的推出不仅为AI研究划定了新方向,更暗示了未来开发工具的变革可能。若模型能突破动态交互瓶颈,非技术人员通过录制操作视频即可生成网页原型,这将大幅降低前端开发门槛。不过,研究人员提醒:真实开发还需考虑性能优化、兼容性、安全防护等维度,这些难以通过视频演示完全覆盖。
从技术趋势看,IWR-Bench代表了AI代码生成从“静态描述”到“动态演示”的演进。当前主流AI编码助手依赖文本提示,而未来可能实现“所见即所得”的智能开发——产品经理演示操作,AI自动生成可交互代码。
随机段落调整:原“技术挑战”段前移至第三段
技术挑战四重门:时序、抽象、匹配、生成
IWR-Bench的评测设计直击AI代码生成的四大痛点:
- 时序理解:从30秒操作视频中定位关键交互节点(如“点击提交按钮后弹出弹窗”);
- 逻辑抽象:将视觉行为转化为
addEventListener、setState等编程概念; - 资源匹配:在匿名化文件名中准确关联图片、CSS文件(如从“img_123.png”找到对应图标);
- 代码生成:输出结构合理的HTML/CSS/JS代码,避免语法错误或逻辑冲突。
IWR-Bench的上线,不仅暴露了当前AI的技术短板,更指明了多模态模型从“看懂”到“做对”的进化方向——当AI能真正理解人类操作背后的逻辑,开发工具的革命或许已不远。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









