2025年11月28日,快手又有大动作!其新一代旗舰多模态模型Keye-VL-671B-A37B正式上线,还同步开放了代码。这模型可不简单,它“善看会想”,在通用视觉理解、视频分析和数学推理等核心任务里表现超棒,难道这不是快手在人工智能领域实力的一次强力展示吗?和之前的一些模型相比,它明显在多模态理解和复杂推理上更上一层楼。
模型地址: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

独特设计理念,精准应对各种场景
Keye-VL-671B-A37B的设计理念超有前瞻性,就是要实现更高级的多模态理解和复杂推理。它可不是在基础模型上随便搞搞,而是在基础模型强大通用能力的基础上,对视觉感知、跨模态对齐以及复杂推理链路进行了系统升级至。这么一来,不管是日常应用,还是那些高难度任务,它都能给出更精准的结果,这和那些只能处理简单任务的模型相比,优势太明显了。
在AI领域,多模态理解能力可是关键。就好比我们人,要同时理解文字、图片、视频等信息,模型也得具备这样的能力。Keye-VL-671B-A37B通过系统升级,让自己在各种场景下都能稳定发挥,就像一个全能选手,不管遇到什么挑战都能应对自如。
创新技术架构,构建强大能力
在技术架构方面,Keye-VL-671B-A37B采用了DeepSeek-V3-Terminus作为大语言模型基座,通过MLP层与视觉模型KeyeViT相连,而KeyeViT是基于Keye-VL-1.5进行初始化的。这就像搭积木一样,把不同的模块巧妙组合起来,构建出一个强大的模型。
它的预训练过程也很有讲究,分为三个阶段。先严格筛选300B高质量预训练数据,在保证视觉理解能力扎实的同时,还能控制计算成本。然后进行初步对齐训练,冻结视觉与语言模型参数;接着开放全部参数进行全面预训练;最后在更高质量的数据上进行退火训练,大大提升了模型的细粒度感知能力。这就像打磨一件艺术品,经过多道工序,让它越来越完美。
精细后训练,拓展应用领域
模型的后训练过程同样不容小觑,涵盖了监督微调、冷启动和强化学习等步骤,训练任务包括视觉问答、图表理解、富文本OCR等领域。这就像给模型进行全方位的培训,让它能应对各种不同的任务需求。
通过这些精细的后训练,Keye-VL-671B-A37B的能力得到了进一步提升。它不仅能理解各种信息,还能根据不同的任务要求给出准确的答案。比如在视觉问答中,它能快速准确地回答关于图片的问题;在图表理解方面,它能从复杂的图表中提取关键信息。

未来规划:迈向更智能的形态
快手表示,未来Keye-VL会持续提升基础模型能力,同时融合多模态Agent能力,朝着更“会用工具、能解复杂问题”的智能形态发展。模型的多轮工具调用能力将被强化,在实际任务中能自主调用外部工具,完成复杂的搜索、推理和信息整合。
另外,Keye-VL还将在“think with image”和“think with video”等关键方向深入探索。这意味着模型不仅能理解图像与视频,还能围绕这些内容进行深度思考与链式推理。就像我们人看到一幅画或者一段视频,能从中产生各种想法和联想,未来的Keye-VL也能做到这一点。
拓展多模态智能上限,迎接新挑战
通过基础能力与Agent能力的双轮驱动,快手的Keye-VL目标是不断拓展多模态智能的上限,迈向更通用、更可靠和更强推理能力的下一代多模态系统。这一创新无疑将为多模态AI的发展带来新的机遇与挑战。
在AI技术飞速发展的今天,多模态智能已经成为未来的发展方向。快手的Keye-VL-671B-A37B就像一颗璀璨的新星,在这个领域闪耀着光芒。
它不仅展示了快手在AI技术上的实力,也为整个行业的发展提供了新的思路和方向。相信在未来,Keye-VL会给我们带来更多的惊喜,让我们拭目以待!
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









