NeRF:神经辐射场

NeRF是实现新视角合成的新方法,能够实现photo-realistic的image

tradition: 用point clouds, mesh, voxel等方式显式表示scene,缺点:离散表示,导致合成的view表面粗糙

NeRF:用MLP function隐式表示scene,优点:可微,即连续,合成的view表面细腻。

Pipeline

Steps

  1. 每张input view的每个像素都会生成一条ray=o+td, t∈(tn, tf)
  2. 会对每条ray进行N点采样,获得点的位置和方向信息,即5D input=(x, y, z, θ, φ)
  3. 将采样的每个点输入到MLP中得到2D output=(c, δ)
  4. 用volume rendering对每条ray上的N个采样点渲染,得到对应像素的颜色
  5. 对每张input view的每个像素的每条ray进行渲染,最终就可得到rendered view
  6. 用rendered view和input view计算loss,并优化

Volume Rendering

积分形式:

离散化:

动态示意图:

Optimization

Positional Encoding

MLP不能很好的学习高频函数,直接将5D信息输入到MLP,所渲染出的scene的表面比较模糊,即低频分量。

将5D信息映射到高维后,再进行训练渲染所得出的scene的表面有很清楚的纹理,即高频分量。

位置编码公式(对于位置L=10,角度L=4):

效果对比:

Hierarchical Volume Sampling

  1. N点采样时,如果均匀采样,则MLP只能学到离散位置的信息。将所需采样的区间均匀分为N段,在每一段内部采用均匀采样,这样就能够学习连续的位置信息。
  2. “coarse to fine” 思想,通过上一步,将Nc个采样点输入到coarse network中去,计算透明度概率分布,然后再进行fine采样得到Nf个采样点,连同Nc输入到fine network中去。

示意图:

view-dependent

从不同的角度观察scene的同一个位置,透明度一样,但颜色可能不同。基于此,MLP的基本结构如下:

view-dependent能实现不同角度不同颜色的效果:

缺点:计算量大,虽然MLP网络不大,但每个采样点都需要送入到MLP中进行计算。

赞赏