清华Video-T1：视频生成黑科技，不用重训也能大幅提升画质！-AITOP100,AI资讯

还在为AI生成的渣画质视频发愁？清华Video-T1来啦！

最近，清华大学搞了个大新闻，他们开源了一项超厉害的技术——Video-T1！这玩意儿的核心秘密武器叫做测试时缩放（Test-Time Scaling，TTS）。说白了，就是让AI在生成视频的时候，多花点功夫“精雕细琢”，这样就能让生成的视频质量嗖嗖往上涨，而且跟咱们给的文字描述也更贴切，关键是，还不用重新训练模型！这简直是视频生成领域的一场及时雨啊！

Video-T1技术原理示意图

啥是“测试时缩放”？听我给你白话白话

其实啊，在大型语言模型圈子里，早就有人发现，给模型多“思考”一会儿，它的表现就能更好。Video-T1就是借鉴了这个思路，然后把它用到了视频生成上。想象一下，以前的视频生成模型就像个“快枪手”，收到文字提示，嗖一下就给你生成一个视频。现在有了TTS，它就变成了“慢工出细活”的艺术家。

简单来说，用了TTS的Video-T1，会先生成一大堆“候选视频”，然后让一个“质量检测员”来给这些视频打分，最后选出最好的那个。这就好比咱们写文章，先写一堆草稿，然后反复修改，最后才定稿。

Video-T1的核心秘密，都在这儿了！

Video-T1最牛的地方在于，它没想着去花大价钱重新训练模型，而是琢磨着怎么把现有模型的能力发挥到极致。它的核心思路是，在模型的“噪声空间”里，找到一条更好的视频生成路径。为了实现这个目标，清华的团队想出了两种绝妙的搜索策略：

随机线性搜索（Random Linear Search）： 这个方法就像“广撒网”，先随机生成一堆“噪音”，然后让视频生成模型把这些噪音一点点“擦干净”，生成一堆候选视频。接着，质量检测员出马，给这些候选视频打分，最后选出得分最高的那个。

帧树搜索（Tree-of-Frames， ToF）： 考虑到一帧一帧地“擦噪音”太费劲，ToF就聪明多了。它把视频生成分成三个阶段：第一步，先调整好图像的整体感觉，这会影响到后面的帧。第二步，用“动态提示”让质量检测员重点关注视频的流畅性和真实性，根据反馈来指导搜索。最后，评估整个视频的质量，选出跟文字提示最符合的那个。ToF这种“循序渐进”的方法，能更聪明地探索视频生成的各种可能性。

帧树搜索（ToF）示意图

TTS的效果，那是杠杠的！

实验结果表明，给AI更多的时间去“琢磨”（也就是生成更多候选视频），模型的效果就会越来越好。换句话说，就算是用同一个视频生成模型，只要给它更多的推理时间，它就能生成质量更高、跟文字提示更贴切的视频。研究人员在多个视频生成模型上做了实验，结果都表明TTS能稳定地提升性能。当然，不同的质量检测员关注的点不一样，所以提升的速度和幅度也会有所差别。

Video-T1的TTS方法在常见的场景和物体上，以及容易评估的图像质量方面，都取得了显著的进步。看看官方提供的视频演示，你就会发现，经过TTS处理后的视频，在清晰度、细节和与文本描述的贴合度上都有了明显的提升。比如说，让AI生成一个“戴着太阳镜在泳池边当救生员的猫”的视频，用了TTS之后，猫的形象就更清晰了，救生员的动作也更自然了。

TTS效果对比图

当然，挑战也还是有的

虽然TTS带来了很多进步，但研究人员也坦诚，对于一些不太好评估的属性，比如运动的流畅性和时间上的连贯性（防止画面闪烁），TTS的改进效果就没那么明显。这主要是因为这些属性需要对跨帧的运动轨迹进行精确控制，而目前的视频生成模型在这方面还面临着一些挑战。

总而言之，清华大学开源的Video-T1，通过创新的测试时缩放策略，为提升视频生成质量提供了一种新的有效途径。它不用花大价钱重新训练，而是通过更智能地利用推理时的计算资源，让现有模型焕发出更强的能力。展望未来，我们有理由相信，TTS技术会在视频生成领域发挥越来越重要的作用！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集