上海AI实验室联合多家机构发布全球首个城市级NeRF实景三维大模型“书生·天际”
“书生·天际”大模型是谁做的?
上海人工智能实验室(上海ai实验室)联合香港中文大学和上海市测绘院发布全球首个城市级nerf实景三维大模型“书生·天际(landmark)”(以下简称“书生·天际”)。
“书生·天际”大模型可以干什么?
书生·天际在大模型层面创新性地提出了一种新的实景三维模型表征和训练方法,能够以 4K 级图像精度精准展现大规模城市场景。在重构的三维实景中,不仅拥有包括移除、移动和新建城市建筑等城市布局的调整功能,还可以通过“上帝视角”调控光照、季节等城市风格。书生·天际已经超越了“城市重建”,突破了“城市编辑”功能的实现。
注意几个关键词:4K级图像精度展现大规模城市场景、城市布局调整、城市风格调整,启到一个城市编辑功能作用。
书生·天际官网:
https://landmark.intern-ai.org.cn
开源地址:
https://github.com/InternLandMark/LandMark
论文地址:
https://city-super.github.io/gridnerf
“书生·天际”大模型未来开源
未来,上海AI实验室将对书生·天际的建模范围和功能进行扩展,并对书生·天际的算法、算子和系统全部进行开源。
“书生·天际”大模型的主要亮点
亮点1:大范围、高精度建模
首次实现 100 平方公里、4K 图像精度的城市级 NeRF 高效训练,建模范围理论上具有无限可扩展性。
亮点2:实时、高精度渲染
首次实现城市级 NeRF 的 100 平方公里全范围 1k 分辨率、30 帧 实时渲染 和 4k 分辨率离线渲染,打造沉浸式穿梭体验。
亮点3:丰富的扩展功能
提供丰富的超越重建能力,包括移除、新建、旋转城市建筑等城市编辑能力,调节光照、季节等城市风格变化能力。
亮点4:训练、渲染、交互一体化系统
首次实现覆盖算法、算子、计算系统、用户交互的城市级 NeRF 系统,为训练、渲染、交互和应用提供坚实基础。
“书生·天际”大模型主要功能:
超越实景重建,实现城市“可编辑”
书生·天际在实景三维重建领域,实现了一系列技术突破。具有千亿级参数的书生·天际,已实现对100平方公里范围进行城市实景三维建模。研究人员将预先采集的航拍倾斜摄影图像导入书生·天际模型进行训练,经计算渲染后便可生成实景三维模型。
图像质量方面,书生·天际实现了4k分辨率离线渲染,同时首次实现城市级nerf的100平方公里全范围1k分辨率、30帧实时渲染。书生·天际利用少量的倾斜拍摄图像,便可实现大规模场景的三维实景建模,建模范围理论上具有无限可扩展性。与传统建模方式相比,书生·天际效率显著提升,有望为城市数字孪生节约可观的人力和资源。
书生·天际可实现大规模场景的三维实景建模
书生·天际实现4k分辨率离线渲染、1k分辨率实时渲染
在高质量实景重构的基础上,书生·天际首次在城市区域和地标建筑两个维度上提供丰富的超越重建能力。
在书生·天际中编辑地标建筑
首创citynerf技术,“生成”城市
书生·天际的高性能内核是上海AI实验室首创的citynerf技术。2021年12月,上海AI实验室提出了citynerf,将卫星和近景等不同高度的影像进行有效融合,率先将nerf建模技术从物体级拓展到城市级。这项技术比谷歌的blocknerf和卡内基梅隆大学的meganerf更超前。
上海AI实验室进一步研发出第二代citynerf技术,它结合了网格和nerf表征的双支模型结构,支持模型的多层级拓展。这个技术的推出为城市级nerf大范围无限扩展建模奠定了基础。
为了实现从nerf到第二代citynerf的技术突破,上海AI实验室创新性地提出了全套的“算法+计算系统+算子”的解题思路,让大范围、高精度、可编辑的城市级实景三维大模型成为现实。
针对大规模城市级场景的nerf建模,书生·天际采用了基于网格表征的双支结构模型。这个模型包含一个网格端和一个nerf端。网格端将场景分解成地面特征平面和垂直特征轴,而nerf端采用轻量mlp网络重建训练视角。为减少渲染计算量,书生·天际可有效地跳过空白空间,降低九成以上采样量,同时采用提前终止渲染的方式提高计算效率。
在训练阶段,书生·天际采取渐进式的训练策略逐步增大训练图像的分辨率。每个阶段训练后,会加入形变损耗来约束每条光束上点权重的分布,以得到更加干净紧凑的场景密度。
基于网格(grid)表征的双支结构模型
针对三维实景重构所面临的海量计算任务,书生·天际采用了并行训练、数据集分块、分布式渲染3个计算加速方案,大幅度提升了计算效率。在并行系统中,并行策略组件(branchparallel、planeparallel、channelparallel、dataparallel)进行混合,实现了超过200b参数量的城市级nerf高效训练。
城市级场景的生成,输入数据规模通常达到100tb级别规模,针对大规模数据加载与预处理问题,“书生·天际”把数据分块,通过两层数据集重排,使得运算负载更均衡。渲染速度是影响基于nerf的城市级三维实景的实际体验的关键因素,为了从系统层面充分提高渲染效率,书生·天际在渲染前先做多分支模型的分支合并。渲染引擎还根据城市级场景的特点,提出了一种运行时动态加载模型参数的策略,可以使实时渲染不随场景尺度的增大而增加所消耗的资源。得益于这一系列系统层面的优化,书生·天际最终提升渲染性能近3个数量级(1000倍),并实现了城市级nerf的100平方公里1k分辨率、30帧的实时渲染。
随着城市场景渲染的规模不断增加和精细度要求不断提高,城市级nerf的场景规模和渲染精细度对实时计算、存储以及系统的硬件配置都提出了更大的挑战。因此,在算子方面,书生·天际提供了一套完整的基于cuda的算子优化方案。该方案针对网格端和nerf端的不同特性,采用了不同的核心算子优化手段,并最终实现了一系列针对城市级nerf计算特点的高性能算子设计。