在OpenAI Sora问世仅8日之际,其王座便已遭遇强劲挑战。12月16日,谷歌DeepMind于人工智能疆域再度挥洒辉煌,揭晓了两大力作:Veo 2视频生成模型与Imagen 3图像生成模型,以及一项名为Whisk的图像生成实验性探索。
此番技术革新,不仅令分辨率与图像品质跃升至全新高度,更在深度理解并模拟真实世界的物理规律、人类动作的流畅性以及表情的细腻变化上,展现出了前所未有的非凡潜力。
谷歌版Sora再升级,Veo 2引领4K高清视频时代
Veo 2,谷歌DeepMind匠心打造的顶尖视频生成模型,能够依据文本或图像的细腻指引,编织出栩栩如生、品质超群的视频篇章。
Veo 2的璀璨亮点聚焦于:
高清视频创作巅峰:Veo 2支持打造高达4K分辨率的视频,细节与清晰度实现质的飞跃,一举突破当前市场主流视频生成模型的桎梏。
相机控制指令精通:Veo 2能够深刻理解并精准执行复杂的摄影指令,广角镜头、POV视角、无人机航拍等信手拈来,视频视觉效果得以极大丰富。用户仅需在提示词中融入专业摄影术语,如“18mm广角镜头”、“低角度追踪拍摄”或“浅景深特写”等,Veo 2便能准确无误地呈现出视觉盛宴。
物理现象与表情模拟新高度:Veo 2在模拟真实世界的物理现象与人类表情方面取得突破性进展,显著减少了AI视频生成中的常见谬误。它能够更为真实地重现物理规律与人类表情的微妙变迁,有效规避“错误生成”的尴尬,如多余手指或意外物体的突兀出现。
尽管DeepMind副总裁伊莱·柯林斯(Eli Collins)坦诚地指出,该模型在长时间保持人物动作连贯性与复杂动作生成方面仍有提升空间,但其在性能评测中的表现已足以令人瞩目。
在Meta发布的基准测试数据集MovieGenBench上,Veo 2展现出了卓越的领先优势。参与者观看了1003个提示及其对应的视频,结果显示,Veo 2在整体用户偏好度和指令遵循准确性方面均独占鳌头。此次评测中,Veo 2的视频样本长度为8秒,与其他模型的5秒或10秒相比,更显其高效与精准。
而在这场激烈的较量中,OpenAI的Sora却意外垫底,成为几款主流视频生成模型中相对表现最弱的一环。谷歌的最大竞争对手——可灵,在总体偏好和指令遵循偏好两个指标上,若将平手与偏好数据相加,竟是唯一一款相对Veo超过50%偏好选择的模型,展现出了不俗的实力。
Imagen 3图像生成模型:艺术风格的璀璨绽放
与此同时,Imagen 3作为谷歌DeepMind对图像生成模型的全面升级,在艺术风格的多样性与图像品质的提升上同样取得了显著成就。从写实主义到印象派,从抽象艺术到动漫风格,Imagen 3能够精准捕捉并再现不同艺术流派的独特魅力,图像品质更是实现了质的飞跃。
随着Imagen 3通过Google Labs的ImageFX平台在全球超过100个国家的推出,用户将能够轻松访问并开启全新的图像创作之旅。而Veo 2与Imagen 3的潜力,也正逐步在YouTube创作者的短视频背景制作以及企业用户的创意工作流程中得以释放,共同探索人工智能带来的无限可能。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html