在人工智能技术的推动下,内容创作领域迎来了新的变革。
2024年9月24日,字节跳动旗下火山引擎在深圳举办的AI创新巡展上,正式发布了豆包视频生成大模型,标志着AI视频生成技术迈入了一个新的阶段 。
技术创新:多主体互动与一致性
豆包视频生成大模型的发布,首次突破了多主体互动的难关。这意味着,该模型能够根据复杂的指令,让视频中的多个主体进行自然连贯的动作和交互。无论是人物样貌、服装细节还是头饰,在不同的镜头切换下都能保持高度一致性,接近于实拍效果 。
一致性多镜头生成是豆包视频生成模型的一项特色能力。在一句提示词内,实现多个镜头切换,同时保持主体、风格和氛围的一致性。
技术架构:DiT架构与Transformer结构
豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,实现了视频在大动态和运镜中的自由切换。它具备变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。此外,全新设计的扩散模型训练方法,解决了多镜头切换时的一致性问题 。
豆包视频生成模型申请地址: https://www.aitop100.cn/tools/detail/1949.html
应用场景:广泛且多样
模型能够理解复杂的用户指令(prompt),生成多个动作和主体之间的交互视频。
可以处理具有时间顺序和复杂结构的任务,如生成时序性动作和多个主体互动的场景。
提示词:特写一个中国女人的面部。她有些生气地戴上了一副墨镜,一个中国男人从画面右侧走进来抱住了她。
豆包视频生成大模型不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,还能为专业创作者和艺术家们提供创作辅助。
豆包视频生成模型支持丰富多样的题材类型,以及包括黑白、3D动画、2D动画、国画、水彩、水粉等多种风格。同时,模型涵盖1:1、3:4、4:3、16:9、9:16、21:9 六个比例,充分适配电影、电视、电脑、手机等多种场景。
突破了传统PPT动画的局限,能够生成流畅的动态视频,并支持复杂的镜头操作,如变焦、环绕、平摇、缩放和目标跟踪等。 模型具备灵活的视角控制能力,带来更贴近现实的视觉体验,能够在不同场景中轻松切换镜头。
提示词:一对长头发的外国男子和女子在骑马驰骋
市场反响:使用量激增
自发布以来,豆包大模型的使用量呈现爆发式增长。截至2024年9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时增加了十倍。多模态数据处理量也分别达到每天5000万张图片和85万小时语音 。
豆包大模型的定价低于行业99%,引领了国内大模型的降价潮。火山引擎总裁谭待表示,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素 。
相信视频生成能力的提升可以激发更多创意,带来更多创新,包括电商、教育、城市文旅、音乐MV、微电影、短剧等各类应用场景。
豆包视频生成模型-使用地址:【点击登录】