大模型市场“厘时代”:字节跳动“豆包”的突围之路
继通用大模型进入价格“厘时代”后,字节跳动再次引领多模态大模型进入这一新阶段。
在2024年12月18日的火山引擎Force大会上,字节跳动正式发布豆包·视觉理解模型,并公布了其极具竞争力的价格:千tokens输入仅需0.003元,相当于1元人民币可处理284张720P图片。
相较于Claude 3.5 Sonnet (0.021元/千tokens)、Qwen-VL-Max (0.02元/千tokens) 以及GPT-4o (0.0175元/千tokens),豆包视觉理解模型的价格优势高达85%。
早在今年5月,字节跳动发布的豆包大模型,其主力模型在企业市场的定价已低至0.0008元/千Tokens,即0.8厘可处理1500多个汉字,价格比行业平均水平低99.3%,直接将大模型带入“厘时代”。
这一举措迅速引发市场震荡,迫使阿里云的三款通义千问主力模型大幅降价,最高降幅达90%。百度智能云甚至宣布,文心大模型的两款主力模型ENIRE Speed和ENIRE Lite全面免费。
短短不到一年半的时间,字节跳动是如何在AI大模型市场实现后来居上?多模态大模型又发展到了哪个阶段?未来大模型技术在应用端的新趋势是什么?
“卷王”豆包:如何实现弯道超车?
2023年被誉为国产大模型“大爆发”之年。
从去年3月开始,众多科技巨头和创新企业纷纷推出自研大模型产品,包括阿里通义千问1.0、腾讯混元、360智脑、华为盘古、科大讯飞星火、商汤日日新、百川大模型以及智谱AI的GLM等,都诞生于这一时期。
作为入局较晚的选手,字节跳动于去年1月才成立大模型研发团队,并在8月发布“云雀”大模型和对外测试AI对话产品“豆包”。
尽管起步较晚,但“豆包”的增长速度却令人瞩目。
根据量子位智库的数据显示,截至11月底,豆包2024年的累计用户规模已突破1.6亿。11月平均每天有80万新用户下载豆包,单日活跃用户接近900万,仅次于OpenAI的ChatGPT,位列全球第二、国内第一。
而今年5月发布的豆包通用大模型,根据字节跳动公布的数据,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较首次发布时增长了33倍。
“豆包”之所以能取得如此快速的增长,离不开字节跳动这个“卷王”的大力推动,主要体现在以下几个方面:
流量驱动:
App Growing的数据显示,截至11月15日,Kimi、豆包AI、星野等国内十款大模型产品,合计投放了超过625万条广告,总金额高达15亿元。其中,Kimi AI和豆包是投放力度最大的两款产品,分别投入了5.4亿元和4亿元。
在当前的市场环境下,通过广告投放快速获取用户是AI产品启动的有效方式。而各家公司的投放渠道,几乎都离不开字节跳动旗下的巨量引擎(涵盖今日头条、抖音、西瓜视频等)。
因此,背靠字节跳动的豆包,充分利用了流量池的优势。在抖音平台上,字节跳动几乎屏蔽了除豆包以外的所有AI应用投放,将资源集中在自家产品上。虽然重金买量能否转化为超级应用尚不确定,但至少目前为豆包带来了显著的用户增长。
产品矩阵:
从聊天助手、视频工具,到娱乐应用、办公领域,字节跳动陆续推出了十几个AI应用,覆盖了几乎所有主流AI产品方向。此外,字节跳动还在今年10月推出了能与豆包语音对话的Ola Friend耳机,并正在研发AI眼镜。
这种饱和式的研发,一方面能让豆包大模型依托众多AI应用加速迭代,另一方面则希望通过AI硬件终端拓宽豆包大模型的使用场景,最终实现整个“豆包+”产业链闭环。
场景拓展:
“豆包”也在积极拓展应用场景,力求在各个领域实现突破。据了解,豆包大模型已与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的调用量在半年内增长了100倍。近三个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,学习教育等场景也有显著增长。
总而言之,丰富的内部生态、持续的资源投入、庞大的优质数据和应用场景,以及全面接入AI并相互打通,是豆包能够成为行业“卷王”的关键。
多模态AI:大模型竞争的下半场
OpenAI推出Sora,实现“一句话生成视频”;谷歌发布Gemini,能够无缝地理解、操作和组合不同类型的信息。受此影响,国内主要公司也开始陆续跟进、布局视频、音乐、语音等多模态AI应用。
例如,今年5月以来,生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型;9月,MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级;11月,腾讯混元大模型正式上线视频生成能力,月之暗面旗下Kimi则被爆出正在内测AI视频生成功能“Kimi创作空间”......多模态的“多”正成为新的发展方向。
此次火山引擎发布的豆包·视觉理解模型,主要能力包括:
更强的内容识别能力:不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。
更强的理解和推理能力:不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算。
更细腻的视觉描述能力:可以基于图像信息,更细腻地描述图像呈现的内容,还能进行多种文体的创作。
在GPT-4于语言方向取得突破之后,业界普遍认为“视觉”是下一个爆发的赛道。毕竟人类的五感之中有80%是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现AGI的路径。
火山引擎总裁谭待在采访中表示,推出视觉理解模型相当于解锁了一个很大的场景。与过去只有文字对话形式的AI相比,聊天功能与深度推理的、图像视觉理解等能力的融合,能让模型有能力处理好真实世界的大量综合性信息,辅助人类完成一系列复杂工作。
例如,在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识;在教育场景中,为学生优化作文、科普知识;在办公场景下,除了识别内容,模型还能帮助用户分析图表中的数据关系,处理代码逻辑。
此外,火山引擎除了推出视觉理解模型之外,还发布、升级了多个其他模型。例如,豆包通用模型Pro已全面对齐GPT-4o;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本接入即梦AI和豆包App......
可以看出,尽管相比于市场同类产品,豆包系列大模型发布的时间并不算早,但一直保持着较快速度的更新,并且将最新能力通过即梦AI、豆包App等应用,迅速开放给普通用户使用。
当前,AI市场关注的重心正逐渐从“大模型”转变为“大模型+”。除了常规的AI文本对话类应用,多模态的“多”正成为新的方向。
大模型商业化:到了“验收”的时刻
在2024世界人工智能大会上,百度创始人李彦宏提到,“2023年国内出现了百模大战,其实造成了社会资源的巨大浪费,尤其是算力的浪费。”无论是技术研发成本,还是应用运行成本,大模型的成长都离不开资金支持。
在行业回归理性的背景下,越来越多的AI企业意识到,单纯地追求参数量、Token数、集群规模、价格,意义并不大,大模型的商业化落地才是最需要关注的问题。
按照终端用户类型,AI大模型的商业模式可分为to C和to B两种:
lto C:面向个人消费者,包括免费和付费订阅模式。例如,腾讯元宝、百度的文心一言(3.5版本)采用免费模式;百度的文心一言(4.0版本)、OpenAI的ChatGPT(4.0版本)采用付费订阅模式。
lto B:面向企业,包括API调用授权和SaaS模式。API调用授权模式中,企业客户可在自己的应用程序或服务中集成AI功能,通常基于调用次数或数据量计费,例如,阿里通义千问、智谱AI采用此模式。SaaS模式中,大模型企业为客户提供软件服务,客户无需安装和维护软件,例如,Google Cloud AI采用此模式。在实际应用中,大模型企业通常混合使用多种商业模式。
当下,多模态大模型竞争激烈,将推动诸多行业重塑生产环节,势必会在以下几个领域引发新一轮的升级与角逐:
影音创作:当大模型由单模态生成转向多模态生成,AIGC应用降低了专业创作门槛,这将改变影音传媒行业的生产模式,塑造全新内容生产范式,实现创作效率提升、创作空间拓展及作品质量提升的目标。
情绪智能:基于最新的AI模型,未来AI陪伴将通过流式语音识别、多模态AI和情感计算等技术,极大地提升互动体验。多模态大模型将赋予机器情感价值,并通过深度分析用户的情感和行为,满足用户的多元化陪伴诉求。
工业智造:未来多模态大模型有望与当前普遍使用的专用小模型互补融合,深度赋能工业制造的各个环节,并随着场景数据的整合和积累,进一步升级感知和理解能力,以满足生产制造中的个性化需求,从而推动工业产业变革。
总之,AI领域的竞争核心已经从大模型的“有无之战”变成了“应用之战”。在这个阶段里,比拼的不再是宏观概念,而是落地能力和商业化进展。
随着国内大模型持续迭代与升级,叠加国内GPU供应问题逐步缓解、政策牵引等因素,国内大模型训推算力需求有望逐步释放,这将为大模型的落地应用进一步提速,也将给AI时代带来新的行业机遇。