在科技飞速发展的当下,AI技术不断拓展边界,渗透到各个领域。2025年11月08日,谷歌最新视频生成人工智能模型Veo-3进入大众视野,本以为它会成为医学领域的得力助手,可测试结果却让人大跌眼镜。它能生成逼真手术视频,可医学操作理解却差得远,这不禁让人发问:如此逼真的视频,为何在医学逻辑上如此薄弱呢?和那些真正能精准理解医学操作的理想模型相比,Veo-3的表现着实让人有些失望。
模型地址:谷歌Veo3网页版官网 (海外网站需要科学上网)

测试过程与评测标准
近日,研究人员对Veo-3展开了全面测试。研究团队提供了一张手术图像,要求Veo-3预测接下来8秒内的手术进展。为了更科学地评估其表现,他们专门构建了一个名为SurgVeo的评测标准,这个标准涵盖了50段真实的腹腔和脑部手术视频。这就好比给Veo-3设置了一场严格的考试,用真实且丰富的手术场景来检验它的能力。
外科医生评分与表现分析
研究小组邀请了四位经验丰富的外科医生对AI生成的视频进行独立打分。打分标准包含视觉真实性、器械使用的合理性、组织反应及手术逻辑性这四个方面。外科医生们看到Veo-3生成的视频后,纷纷称赞其“清晰得令人震惊”,这足以说明视频在视觉效果上确实达到了很高的水准。
然而,深入分析评分结果后,问题就暴露出来了。在腹腔手术测试中,Veo-3的视觉合理性得分为3.72分,可器械操作仅得1.78分,组织反应1.64分,手术逻辑性评分更是低至1.61分。这就好比一个外表光鲜亮丽的盒子,打开后里面却杂乱无章。特别是在神经外科场景中,Veo-3的表现更加逊色,8秒后手术逻辑性的得分仅为1.13分。研究团队发现,超过93%的错误都源于医学逻辑层面,比如它会虚构不存在的手术器械,还会出现不符合生理规律的组织反应。即便尝试为模型提供更多的上下文信息,像手术类型和具体操作阶段等,结果也并未显著改善其表现。
值得一提的是,医学领域对于手术操作的精准性和逻辑性要求极高,一个小小的失误都可能带来严重的后果。而Veo-3在医学逻辑上的这些不足,无疑给它在医学领域的应用蒙上了一层阴影。

研究结论与未来展望
该研究表明,当前的视频生成AI距离真正理解医学操作还有很大一段距离。虽然未来这些系统有可能会用于医生培训和术前规划,但就现有模型而言,还远远达不到安全可靠的应用水平。想象一下,如果医生在培训时使用了这种存在严重逻辑错误的视频,很可能会学到误导性的知识和错误的手术技巧,这对患者的生命健康将构成巨大威胁。
研究团队计划将SurgVeo的数据集开源,这一举措旨在推动学术界提升AI在医学理解方面的能力。这就好比为大家提供了一个公开的“训练场”,让更多的人能够在这个基础上进行研究和改进,共同推动AI技术在医学领域的进步。
风险提醒与行业思考
这一研究结果也给我们敲响了警钟,在医学培训中使用此类生成的视频存在严重风险。我们不能仅仅被AI生成视频的逼真外观所迷惑,而忽视了其内在的医学逻辑。在选择用于医学培训的工具和资料时,一定要谨慎再谨慎,确保其准确性和可靠性。
同时,这也引发了整个AI行业的思考。在追求技术创新的道路上,我们不能只注重表面的效果,更要深入挖掘技术背后的逻辑和原理。只有让AI真正理解各个领域的专业知识,才能更好地为人类服务。
总之,Veo-3的出现让我们看到了AI在医学领域的潜力,但也暴露出了目前存在的问题。希望未来通过不断的研究和改进,AI能够真正成为医学领域的好帮手,为人类的健康事业做出更大的贡献。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









