字节跳动“豆包”突围：多模态AI与大模型应用的新战局-AITOP100,AI资讯

大模型市场“厘时代”：字节跳动“豆包”的突围之路

继通用大模型进入价格“厘时代”后，字节跳动再次引领多模态大模型进入这一新阶段。

在2024年12月18日的火山引擎Force大会上，字节跳动正式发布豆包·视觉理解模型，并公布了其极具竞争力的价格：千tokens输入仅需0.003元，相当于1元人民币可处理284张720P图片。

相较于Claude 3.5 Sonnet (0.021元/千tokens)、Qwen-VL-Max (0.02元/千tokens) 以及GPT-4o (0.0175元/千tokens)，豆包视觉理解模型的价格优势高达85%。

早在今年5月，字节跳动发布的豆包大模型，其主力模型在企业市场的定价已低至0.0008元/千Tokens，即0.8厘可处理1500多个汉字，价格比行业平均水平低99.3%，直接将大模型带入“厘时代”。

这一举措迅速引发市场震荡，迫使阿里云的三款通义千问主力模型大幅降价，最高降幅达90%。百度智能云甚至宣布，文心大模型的两款主力模型ENIRE Speed和ENIRE Lite全面免费。

短短不到一年半的时间，字节跳动是如何在AI大模型市场实现后来居上？多模态大模型又发展到了哪个阶段？未来大模型技术在应用端的新趋势是什么？

“卷王”豆包：如何实现弯道超车？

2023年被誉为国产大模型“大爆发”之年。

从去年3月开始，众多科技巨头和创新企业纷纷推出自研大模型产品，包括阿里通义千问1.0、腾讯混元、360智脑、华为盘古、科大讯飞星火、商汤日日新、百川大模型以及智谱AI的GLM等，都诞生于这一时期。

作为入局较晚的选手，字节跳动于去年1月才成立大模型研发团队，并在8月发布“云雀”大模型和对外测试AI对话产品“豆包”。

尽管起步较晚，但“豆包”的增长速度却令人瞩目。

根据量子位智库的数据显示，截至11月底，豆包2024年的累计用户规模已突破1.6亿。11月平均每天有80万新用户下载豆包，单日活跃用户接近900万，仅次于OpenAI的ChatGPT，位列全球第二、国内第一。

而今年5月发布的豆包通用大模型，根据字节跳动公布的数据，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较首次发布时增长了33倍。

“豆包”之所以能取得如此快速的增长，离不开字节跳动这个“卷王”的大力推动，主要体现在以下几个方面：

流量驱动：

App Growing的数据显示，截至11月15日，Kimi、豆包AI、星野等国内十款大模型产品，合计投放了超过625万条广告，总金额高达15亿元。其中，Kimi AI和豆包是投放力度最大的两款产品，分别投入了5.4亿元和4亿元。

在当前的市场环境下，通过广告投放快速获取用户是AI产品启动的有效方式。而各家公司的投放渠道，几乎都离不开字节跳动旗下的巨量引擎（涵盖今日头条、抖音、西瓜视频等）。

因此，背靠字节跳动的豆包，充分利用了流量池的优势。在抖音平台上，字节跳动几乎屏蔽了除豆包以外的所有AI应用投放，将资源集中在自家产品上。虽然重金买量能否转化为超级应用尚不确定，但至少目前为豆包带来了显著的用户增长。

产品矩阵：

从聊天助手、视频工具，到娱乐应用、办公领域，字节跳动陆续推出了十几个AI应用，覆盖了几乎所有主流AI产品方向。此外，字节跳动还在今年10月推出了能与豆包语音对话的Ola Friend耳机，并正在研发AI眼镜。

这种饱和式的研发，一方面能让豆包大模型依托众多AI应用加速迭代，另一方面则希望通过AI硬件终端拓宽豆包大模型的使用场景，最终实现整个“豆包+”产业链闭环。

场景拓展：

“豆包”也在积极拓展应用场景，力求在各个领域实现突破。据了解，豆包大模型已与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的调用量在半年内增长了100倍。近三个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，学习教育等场景也有显著增长。

总而言之，丰富的内部生态、持续的资源投入、庞大的优质数据和应用场景，以及全面接入AI并相互打通，是豆包能够成为行业“卷王”的关键。

多模态AI：大模型竞争的下半场

OpenAI推出Sora，实现“一句话生成视频”；谷歌发布Gemini，能够无缝地理解、操作和组合不同类型的信息。受此影响，国内主要公司也开始陆续跟进、布局视频、音乐、语音等多模态AI应用。

例如，今年5月以来，生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型；9月，MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级；11月，腾讯混元大模型正式上线视频生成能力，月之暗面旗下Kimi则被爆出正在内测AI视频生成功能“Kimi创作空间”......多模态的“多”正成为新的发展方向。

此次火山引擎发布的豆包·视觉理解模型，主要能力包括：

更强的内容识别能力：不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。

更强的理解和推理能力：不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算。

更细腻的视觉描述能力：可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作。

在GPT-4于语言方向取得突破之后，业界普遍认为“视觉”是下一个爆发的赛道。毕竟人类的五感之中有80%是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现AGI的路径。

火山引擎总裁谭待在采访中表示，推出视觉理解模型相当于解锁了一个很大的场景。与过去只有文字对话形式的AI相比，聊天功能与深度推理的、图像视觉理解等能力的融合，能让模型有能力处理好真实世界的大量综合性信息，辅助人类完成一系列复杂工作。

例如，在旅游场景中，帮助游客看外文菜单、讲解照片中建筑的背景知识；在教育场景中，为学生优化作文、科普知识；在办公场景下，除了识别内容，模型还能帮助用户分析图表中的数据关系，处理代码逻辑。

此外，火山引擎除了推出视觉理解模型之外，还发布、升级了多个其他模型。例如，豆包通用模型Pro已全面对齐GPT-4o；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本接入即梦AI和豆包App......

可以看出，尽管相比于市场同类产品，豆包系列大模型发布的时间并不算早，但一直保持着较快速度的更新，并且将最新能力通过即梦AI、豆包App等应用，迅速开放给普通用户使用。

当前，AI市场关注的重心正逐渐从“大模型”转变为“大模型+”。除了常规的AI文本对话类应用，多模态的“多”正成为新的方向。

大模型商业化：到了“验收”的时刻

在2024世界人工智能大会上，百度创始人李彦宏提到，“2023年国内出现了百模大战，其实造成了社会资源的巨大浪费，尤其是算力的浪费。”无论是技术研发成本，还是应用运行成本，大模型的成长都离不开资金支持。

在行业回归理性的背景下，越来越多的AI企业意识到，单纯地追求参数量、Token数、集群规模、价格，意义并不大，大模型的商业化落地才是最需要关注的问题。

按照终端用户类型，AI大模型的商业模式可分为to C和to B两种：

lto C：面向个人消费者，包括免费和付费订阅模式。例如，腾讯元宝、百度的文心一言（3.5版本）采用免费模式；百度的文心一言（4.0版本）、OpenAI的ChatGPT（4.0版本）采用付费订阅模式。

lto B：面向企业，包括API调用授权和SaaS模式。API调用授权模式中，企业客户可在自己的应用程序或服务中集成AI功能，通常基于调用次数或数据量计费，例如，阿里通义千问、智谱AI采用此模式。SaaS模式中，大模型企业为客户提供软件服务，客户无需安装和维护软件，例如，Google Cloud AI采用此模式。在实际应用中，大模型企业通常混合使用多种商业模式。

当下，多模态大模型竞争激烈，将推动诸多行业重塑生产环节，势必会在以下几个领域引发新一轮的升级与角逐：

影音创作：当大模型由单模态生成转向多模态生成，AIGC应用降低了专业创作门槛，这将改变影音传媒行业的生产模式，塑造全新内容生产范式，实现创作效率提升、创作空间拓展及作品质量提升的目标。

情绪智能：基于最新的AI模型，未来AI陪伴将通过流式语音识别、多模态AI和情感计算等技术，极大地提升互动体验。多模态大模型将赋予机器情感价值，并通过深度分析用户的情感和行为，满足用户的多元化陪伴诉求。

工业智造：未来多模态大模型有望与当前普遍使用的专用小模型互补融合，深度赋能工业制造的各个环节，并随着场景数据的整合和积累，进一步升级感知和理解能力，以满足生产制造中的个性化需求，从而推动工业产业变革。

总之，AI领域的竞争核心已经从大模型的“有无之战”变成了“应用之战”。在这个阶段里，比拼的不再是宏观概念，而是落地能力和商业化进展。

随着国内大模型持续迭代与升级，叠加国内GPU供应问题逐步缓解、政策牵引等因素，国内大模型训推算力需求有望逐步释放，这将为大模型的落地应用进一步提速，也将给AI时代带来新的行业机遇。

想要体验更多AI智能软件工具请登录AI人工智能网站（AITOP100平台）--AI工具集