豆包视觉理解模型:厘时代的多模态革新-AITOP100,AI资讯

字节跳动视觉理解模型与大模型家族新进展在当下这个科技飞速发展的时代，人工智能领域正不断涌现新的突破与创新。2024年12月18日举办的火山引擎Force大会无疑成为了AI界的一大焦点，会上字节跳动带来了一系列令人瞩目的成果。其中，字节跳动正式推出的豆包视觉理解模型尤为引人关注。

一、豆包大模型正式升级

我们知道，在人类获取的信息中，超过80%是通过视觉而来的，这充分彰显了视觉理解在信息交互中的关键地位。该模型的问世，不仅极大地拓展了大模型的能力范畴，还进一步降低了用户与大模型交互的难度，为大模型开启了更为丰富多样的应用场景。据火山引擎总裁谭待介绍，豆包视觉理解模型具备强大且精准的视觉内容识别能力，同时在理解和推理方面表现出色。它能够依据图像所包含的信息展开复杂的逻辑运算，完成诸如分析图表、处理代码、解答学科问题等多样化任务。此外，其细腻的视觉描述和创作能力也为用户提供了更丰富的交互体验。

值得一提的是，在此之前，该模型已成功接入豆包App和PC端产品，豆包战略研究负责人周昊表示，豆包团队一直致力于优化用户输入体验，在多模态输入方面进行了精心打磨，而视觉能力作为其中的重要组成部分，现已通过火山引擎开放给企业客户。

二、3D 生成模型首次亮相

在此次大会上，还有一个亮点就是豆包3D生成模型的首次亮相。该模型运用了3D-DiT等先进的算法技术，能够生成高质量的3D模型。当它与火山和英伟达合作的数字孪生平台veOmniverse相结合时，便形成了一套高效的物理世界仿真模拟器，可用于智能训练、数据合成和数字资产制作等工作。

通过现场展示的Demo可以看到，用户只需输入简单的文本描述，就能借助veOmniverse编辑器和文生3D功能快速搭建出工厂车间等各种3D场景和模型，充分满足了仿真训练的多样化需求，加速了虚拟与现实的深度融合。

与此同时，字节跳动的豆包大模型家族中的其他多款产品也迎来了重要的更新与升级。

豆包通用模型pro在与GPT-4o的对比中展现出了强大的竞争力，已全面对齐GPT-4o的能力，甚至在部分复杂任务中表现更为出色。其使用价格仅为GPT-4o的八分之一，具有极高的性价比。

在专业知识领域，相比五月版本提升了54%；综合任务处理能力提升32%，与GPT-4o持平；指令遵循提升9%、推理能力提升13%，在数学方面更是提升了43%。

豆包音乐模型也实现了重大升级，从原来只能生成60秒的简单结构音乐，进化到如今能够生成3分钟的完整作品。新模型在旋律、节奏、和声等方面的运用更加合理，确保了全曲的连贯性。而且，如果用户对生成的歌词不满意，还可以开启局部修改模式，进一步满足了用户的个性化需求。

文生图模型升级到2.1版本，新增了“一键P图，一键海报”的功能，实现了精准生成汉字和一句话P图的产品化能力，并已接入即梦AI和豆包App。该模型通过打通LLM和DIT架构，构建了高质量文字渲染能力，让文字与整体画面的融合更加自然和实用。

此外，大会还宣告了后续的发展计划。2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，同时豆包端到端实时语音模型也将很快上线，这将解锁多角色演绎、方言转换等新能力，为用户带来更多惊喜。从市场数据来看，豆包大模型的影响力正在不断扩大。

三、豆包日均使用量7个月增长33倍

截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

它与八成主流汽车品牌达成了合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长了100倍。

在与企业生产力相关的各个场景中，如信息处理、客服与销售、硬件终端、AI工具以及学习教育等，豆包大模型的调用量都有大幅增长，近3个月分别增长了39倍、16倍、13倍、9倍以及其他显著的增长。

谭待认为，豆包大模型市场份额的爆发式增长，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，使得AI技术成为了每一家企业都能用得起、用得好的普惠科技。

在公布豆包视觉理解模型超低定价的同时，火山引擎也对旗下的火山方舟、扣子和HiAgent三款平台产品进行了升级，旨在帮助企业构建完善的AI能力中心，实现高效开发AI应用的目标。其中，火山方舟发布了大模型记忆方案，并推出prefix cache和session cache API，有效降低了延迟和成本。同时，火山方舟还带来了全域AI搜索服务，具备场景化搜索推荐一体化、企业私域信息整合等功能。

从计算范式的发展来看，云原生是过去十年最重要的计算范式，而大模型时代的到来正推动着云计算迈向新的变革。火山引擎提出，下一个十年，计算范式将从云原生进入到AI云原生的新时代。

基于这一理念，火山引擎推出了新一代计算、网络、存储和安全产品。在计算层面，火山引擎GPU实例通过vRDMA网络，支持大规模并行计算和P/D分离推理架构，显著提升了训练和推理效率，降低了成本。在存储方面，新推出的EIC弹性极速缓存能够实现GPU直连，使大模型推理时延降低至1/50、成本降低20%。

在安全层面，火山将推出PCC私密云服务，构建大模型的可信应用体系，基于PCC，企业能够实现用户数据在云上推理的端到端加密，且性能良好，推理时延比明文模式的差异在5%以内。

谭待表示，今年是大模型高速发展的关键一年，就如同面对一列高速行驶的列车，企业要抓住机遇登上这趟列车。通过AI云原生和豆包大模型家族，火山引擎希望助力企业实现AI创新，驶向更加美好的未来。

总结：

此次大会标志着字节跳动在人工智能领域的重大进展。豆包视觉理解模型意义非凡，降低交互难度，开启多元应用。3D 生成模型助力虚拟与现实融合。各模型升级展现了字节跳动在通用智能、专业知识、艺术创作等多方面的技术实力提升。其使用量的暴增体现市场影响力扩大，与众多品牌和终端合作。火山引擎的理念与产品升级为企业提供更好的 AI 服务，计算范式的变革将引领未来十年云计算发展方向，帮助企业抓住 AI 机遇实现创新。