快手发布Keye-VL-671B-A37B模型，融合DeepSeek-V3基座强化多模态推理-AITOP100,AI资讯

2025年11月28日，快手又有大动作！其新一代旗舰多模态模型Keye-VL-671B-A37B正式上线，还同步开放了代码。这模型可不简单，它“善看会想”，在通用视觉理解、视频分析和数学推理等核心任务里表现超棒，难道这不是快手在人工智能领域实力的一次强力展示吗？和之前的一些模型相比，它明显在多模态理解和复杂推理上更上一层楼。

模型地址： https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

独特设计理念，精准应对各种场景

Keye-VL-671B-A37B的设计理念超有前瞻性，就是要实现更高级的多模态理解和复杂推理。它可不是在基础模型上随便搞搞，而是在基础模型强大通用能力的基础上，对视觉感知、跨模态对齐以及复杂推理链路进行了系统升级至。这么一来，不管是日常应用，还是那些高难度任务，它都能给出更精准的结果，这和那些只能处理简单任务的模型相比，优势太明显了。

在AI领域，多模态理解能力可是关键。就好比我们人，要同时理解文字、图片、视频等信息，模型也得具备这样的能力。Keye-VL-671B-A37B通过系统升级，让自己在各种场景下都能稳定发挥，就像一个全能选手，不管遇到什么挑战都能应对自如。

创新技术架构，构建强大能力

在技术架构方面，Keye-VL-671B-A37B采用了DeepSeek-V3-Terminus作为大语言模型基座，通过MLP层与视觉模型KeyeViT相连，而KeyeViT是基于Keye-VL-1.5进行初始化的。这就像搭积木一样，把不同的模块巧妙组合起来，构建出一个强大的模型。

它的预训练过程也很有讲究，分为三个阶段。先严格筛选300B高质量预训练数据，在保证视觉理解能力扎实的同时，还能控制计算成本。然后进行初步对齐训练，冻结视觉与语言模型参数；接着开放全部参数进行全面预训练；最后在更高质量的数据上进行退火训练，大大提升了模型的细粒度感知能力。这就像打磨一件艺术品，经过多道工序，让它越来越完美。

精细后训练，拓展应用领域

模型的后训练过程同样不容小觑，涵盖了监督微调、冷启动和强化学习等步骤，训练任务包括视觉问答、图表理解、富文本OCR等领域。这就像给模型进行全方位的培训，让它能应对各种不同的任务需求。

通过这些精细的后训练，Keye-VL-671B-A37B的能力得到了进一步提升。它不仅能理解各种信息，还能根据不同的任务要求给出准确的答案。比如在视觉问答中，它能快速准确地回答关于图片的问题；在图表理解方面，它能从复杂的图表中提取关键信息。

未来规划：迈向更智能的形态

快手表示，未来Keye-VL会持续提升基础模型能力，同时融合多模态Agent能力，朝着更“会用工具、能解复杂问题”的智能形态发展。模型的多轮工具调用能力将被强化，在实际任务中能自主调用外部工具，完成复杂的搜索、推理和信息整合。

另外，Keye-VL还将在“think with image”和“think with video”等关键方向深入探索。这意味着模型不仅能理解图像与视频，还能围绕这些内容进行深度思考与链式推理。就像我们人看到一幅画或者一段视频，能从中产生各种想法和联想，未来的Keye-VL也能做到这一点。

拓展多模态智能上限，迎接新挑战

通过基础能力与Agent能力的双轮驱动，快手的Keye-VL目标是不断拓展多模态智能的上限，迈向更通用、更可靠和更强推理能力的下一代多模态系统。这一创新无疑将为多模态AI的发展带来新的机遇与挑战。

在AI技术飞速发展的今天，多模态智能已经成为未来的发展方向。快手的Keye-VL-671B-A37B就像一颗璀璨的新星，在这个领域闪耀着光芒。

它不仅展示了快手在AI技术上的实力，也为整个行业的发展提供了新的思路和方向。相信在未来，Keye-VL会给我们带来更多的惊喜，让我们拭目以待！

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群