最近,阶跃星辰可是搞出了个大动静,正式发布并开源了3D大模型——Step1X-3D。这可是阶跃星辰在多模态领域探索的又一重要成果,之前他们在图像、视频、语音、音乐这些模态上已经取得了不少成绩,现在又把AI技术的应用边界拓展到了3D领域。
3D大模型Step1X-3D是什么?
Step1X-3D 是阶跃星辰在多模态探索道路上的又一里程碑式成果。此前阶跃星辰在图像、视频、语音、音乐等模态领域已经成绩斐然,如今它再次发力,将 AI 技术的应用边界拓展至 3D 领域,为整个行业带来了新的曙光。
Step1X-3D这个模型可不简单,它的总参数量达到了4.8B,其中几何模块占了1.3B,纹理模块有3.5B。靠着坚实的数据基础和先进的3D原生架构,它能生成高保真、可控性还强的3D内容。它可不只是追求视觉上的“好看”,更看重“好用”和“可控”,就是要给3D内容创作提供一个强大又靠谱的技术引擎。
核心特性
要说Step1X-3D的核心特性,那得先讲讲它怎么解决3D内容生成的关键难题,在数据、生成质量和可控性上可是下足了功夫。
首先,数据驱动与算法协同优化是它的根基。阶跃星辰对超过500万的原始数据进行了严格的筛选和处理,最后建立了一个包含200万高质量、标准化训练样本的库。这一下子就解决了行业里数据稀缺和质量参差不齐的大问题。他们还用了增强型网格 - SDF转换技术这些方法,从源头上保证了模型学习的精准,也让最终生成的内容更高效。这么一来,水密几何转换成功率提升了20%,Step1X-3D的泛化能力和细节捕捉能力也变得超强。
其次,Step1X-3D采用了先进的3D原生两阶段架构,把几何和纹理表征给解耦了。这就好比给生成的3D内容打造了一个结构可靠、能直接拿来用的“骨架”,而不只是好看的“皮囊”。这样就能有效避免几何失真,保证生成的内容准确、真实又一致。在几何生成方面,它用了专门为3D特性深度优化的创新混合VAE - DiT架构,负责生成TSDF内部表示,保证生成的3D模型结构完整,没有破面漏点的问题。同时,还引入了锐利边缘采样这些技术,能精准捕捉和还原物体的丰富几何细节。纹理生成则是基于强大的SD - XL模型进行深度定制和优化,通过几何条件的精准引导,还有潜在空间多视图同步技术,和几何模块高效协同,生成的纹理色彩饱满、质感生动逼真,跨越多视图还能保持高度一致,和复杂的三维表面贴合得严丝合缝,常见的扭曲和接缝瑕疵都见不着了。
最后,Step1X-3D在3D内容生成的可控性与易用性上也有了很大的提升。它的VAE - Diffusion整体架构和主流的2D生成模型(像Stable Diffusion)在设计上保持了高度一致,这样就能无缝引入和应用成熟的2D控制技术,比如轻量化的LoRA微调。用户就可以对生成3D资产的对称性、表面细节(比如锋利度、平滑度)这些属性进行直观、精细的调控,让创作更符合自己的想法。
Step1X-3D实际测试效果
为了看看Step1X-3D的实际效果到底咋样,阶跃星辰自己搞了一个综合测试,里面有110个多样化的测试用例,对Step1X-3D进行了严格的定量和定性评估,还和好几款主流模型进行了全面对比。结果出来,在自动评估里,Step1X-3D在好多关键维度上表现都很出色。特别是在衡量内容和输入语义一致性的核心指标CLIP - Score上,它拿了所有对比模型里的最高分。这Step1X-3D可真是给开源社区提供了一个超有竞争力的3D生成方案啊!
GitHub地址:https://github.com/stepfun-ai/Step1X-3D