文章
2023-12-27 13:55:48
AI时代的生成式3D大模型全面评测 - “ChatGPT时刻”的前夜
在我过去的所有文章中,我一直把AI分成四个模态去进行分类:
AI文本(大语言模型)、AI绘图、AI声音、AI视频
而在我最近的交流和访谈中,有一个游离于这四模态之外的存在,被反复提起。
AI 3D。
12月20号,这个星期三的晚上,我在接受一个朋友的采访很开心的聊了一个小时,在结束之际,他突然问了一个大纲上没有问题:“你怎么看AI时代的3D?”
说实话我当时有点懵,这个问题我从来没去认真的想过,随便说了一点自己的理解就搪塞过去了。
但是,这不是第一个跟我交流这块的人,在最近一个月里,AI 3D在我各个信息渠道里,都被N次提起。
所以,我也决定写下这篇文章,来聊聊我心中的第五大模态:AI 3D,还有这个领域的现状。
话不多说,开始吧。
目前这个AI 3D这个领域大概有5个主流玩家:Tripo、Meshy、sudoAI、CSM、LumaAI。
CSM和Luma是很老牌的公司了,Luma之前主要做实景扫描的,我一直在玩,前段时间他们搞了一个文生3D的产品Genie,目前还寄生在Discord上,暂不支持图生3D;CSM搞了个实时绘图转3D,但是不支持文生3D。
Meshy做的也比较早,我记得7、8月份就出产品了。Tripo和sudo发的比较新,特别是Tripo,前几天12月21号才发的。
而去聊AI 3D的产品,那绕不过的核心功能和痛点,自然就是建模了。
我简单说一下3D这块的工作流程,让大家有个概念。大概是概念设计 - 3D建模 - 纹理贴图 - 骨骼绑定 - 动画制作 - 灯光 - 渲染 - 合成。
你看到的那些影视特效,或者游戏里的场景,都是需要建模完做贴图然后渲染的。最开始的建模成品是一个素模,大概长这个样子。
有了模型以后,才能去做后面所有的事。
所以,建模是非常重要的,但是同时也是最费时的,很多时候甚至能占用总时长的30%~50%。在3D领域也没有什么比建模更重要,更枯燥,更需要AI优化的东西了。
几家的产品在AI生成建模上,功能都差不多,文生3D和图生3D。
文生3D和图生3D其实非常好理解,跟AI视频的概念是一样的,只不过在AI视频里是用文或图生成1个4s的片段,而在AI 3D里是生成1个模型。
那衡量大家的标准就非常简单了:生成的模型质量和精度到底怎么样。
一般正常来说,我们用的最多的还是图生3D。
所以我先用MJ V6跑了一张图:
篮球的游戏资产,Blender 3D 模型,obj fbx glb 3d 模型,默认姿势,具有透明背景的 PNG 图像
(PS:我真不是因为鸡哥才选择先做的篮球)
然后我把这张图扔到了Tripo、Meshy、sudo、CSM里,因为luma现在不支持图生3D,所以不参与图生3D的对比了。
说实话,我本身对AI 3D的预期其实就不高,所以我一开始才选择上篮球这种非常简单的玩意,结果效果除了Tripo外,另外三个真的差强人意,而且CSM我真忍不住要吐槽一句,生成1个模型要近2个小时。。。。我。。。
我把模型都下载下来了,在Blender里渲染成了动画的GIF,所有摄像机、HDR、参数均统一。大家可以直观的感受一下四家产品的对比。
可以看到,只有Tripo一家真正的把篮球的纹理给连了起来,成为一个真正的篮球。Meshy和sudo明显看到贴图都崩了,而且这崩都不是忍一忍能用的崩,是彻底用不了的崩。CSM在背后也胡成了一坨。
再去Blender里看看建模细节。
CSM把篮球的凹槽做出来了一点细微的影子,Tripo和sudo的建模中规中矩就是一个不是特别圆的球,还有一些瑕疵,但是能用,Meshy是彻底崩的用不了。
就篮球这个case,Tripo处于遥遥领先的状态。
Tripo > CSM > sudo > Meshy。
再多试几个例子。
Tripo继续很稳,Meshy的模型,有一堆洞。。。。sudo的贴图还行,但是下半身的建模和背后的尾巴结构全崩了。CSM转的那一下有两张脸,给我当时吓个半死,但是模型结构还行。。。
Tripo > CSM > sudo > Meshy
2.毛衣。毕竟做衣服是做建模里面逃不开的一环。。。
Tripo表现几乎完美,不管是建模还是贴图,你要是硬挑刺,那就是袖口那没开两个洞(笑。Meshy的建模一如既然的有破洞,而且他们的贴图我发现有一个很大的问题就是,永远是正面精致,但是背面有点崩了。sudo衣服模型的两侧依然有洞,且有不该出现的链接。CSM的贴图和Meshy一个问题,背面和前面差异巨大。
Tripo > CSM > sudo > Meshy
3.一只玫瑰花。花的建模是最恶心的之一,基本对现在的AI 3D来说是最难的级别,用玫瑰花来给图生3D做个收尾。
Tripo花的正反面模型结构合理,但是叶子的模型粘连崩了,多出了一些奇怪的东西。Meshy依然是面子工程,正面看着感觉还挺惊艳,一转过去就又是破洞了。sudo花朵上的细节崩了,基本看不到花的结构了。
至于CSM。。。。。。真的别问我那一坨是什么东西,我也不知道,但我知道那玩意一定不是花。
从这四个例子看下来,至少在图生3D这块,Tripo是断层式领先。
整体Tripo > sudo > CSM = Meshy。
再看一下文生3D,文生3D这块CSM不支持,但是LumaAI的Genie支持文生3D,所以这波对比只对比Tripo、Meshy、sudoAI、LumaAI这四家。
文生3D就真的很吃模型本身的底子了,毕竟图生3D这玩意,图是别人的图,所以展现的更多的是大模型的一个包容能力或者通用能力,你图生3D做的不好,可以有理由说MJ生成的图片风格,跟你3D大模型不契合,所以效果不好。而文生3D,就是扎扎实实看你的底子了,都是自己体系里的东西,再做不好那就是真的不太行了。
文生3D这块的流程有点像Runway的文生视频,runway是给一个prompt后会出4个第一帧,然后你选用哪个图去生成后面的视频。
而文生3D是会先用十几秒时间,根据你的prompt生成4个粗糙的预览模型,你可以自己决定用哪个去后后面的refine(精炼)。大概长这样。
前置的预览模型会比较粗糙,但是可以让你大概去选自己想要的造型。
我先试第一个Prompt,毕竟马上圣诞了,给大家整个活:
Tripo和Luma的效果都非常好,Tripo整体更偏写实,Luma会偏一些卡通,Luma唯一的瑕疵就是膝盖多出来两块莫名奇妙的白斑。meshy干成葫芦娃了。。。sudo的贴图精度不太行,而且帽子衔接处有BUG。
Tripo > Luma > sudo > Meshy。
再做一个猫女,毕竟,做3D怎么能缺了美女呢:
an anime catgirl(动漫猫女孩)
Tripo和Luma依然稳如老狗。Meshy,有点诡异,感觉这个贴图完全没有质感跟纸一样。。。sudo直接做了个抱枕。。。我特么。。。。
Tripo > Luma > Meshy > sudo
最后一个case,做个游戏的3D资产吧,黄金手枪:
golden pistol, unreal engine, highest quality(黄金手枪,虚幻引擎,最高品质)
手枪的细节具体的我就不评价了,大家自己看吧。Luma和Tripo还是强,枪口的细节上,Luma比Tripo精致一些些。
Luma > Tripo > Meshy > sudo
文生3D,目前整体看下来,Tripo和Luma基本是断层式领先,在一些细节上,Tripo会优于Luma。
而在图生3D和文生3D整体上,Tripo是目前绝对的王者。
Tripo网址在此:https://www.tripo3d.ai/
Luma的文生3D想体验的也可以直接去Discord里面,搜他们频道加入体验就行。
另外三个我就不推荐大家去试了,没太大意义。
但是你像Tripo和Luma,目前也依然有不少瑕疵,比如模型的布线有点乱、比如人物面部贴图大概率会崩、比如金属材质的渲染不够精致等等。
不过我相信时间会解决一切,你像Tripo,一个刚出来3天的第一代产品,你指望他一步登天也不可能,更别提AI 3D这个领域也才刚刚开始卷。
目前看下来,AI 3D的进程,以Tripo和Luma为首,大概等于AI绘图的Midjourney V2或者V3,其他家还处于V1的水平。
而Midjourney的大爆发,也是以V4为标志,开始颠覆整个行业,直到前几天的V6,爆杀全场。
AI 3D,现在就是GPT时刻的前夜。
爆发来临的那一天,可能比你我想象的都更快。
写在最后
2019年的时候,我曾经做了一幅3D作品,以纪念我一个游戏伙伴的离职。
分享
2
0
全部评论
加载更多
热门内容