Light Field Neural Rendering

CVPR 2022 best paper finalist
本文与IBRNet很相似,基于IBR(但是加入了对极几何约束)。另外,也是使用了类似于像素对其特征进行融合,只不过各个point&view融合的权重是由self-attention计算的。

此论文用4D Light Field 参数化模型,并且属于Multi-View。wxgzh媒矿工厂论文解读!!!

Abstract

经典LF rendering能够重现view-dependent(如reflection、refraction、translucency)的效果,但是需要大量views;基于geometry的方法只需少量views,但不能准确地对non-Lambertian效应建模。本文结合二者优点,在训练和推理阶段增加几何约束,scene geometry是从sparse views中隐式学习的。

更具体,我们引入一个two-stage transformer-based的model

prerequisites-对极几何约束

X是空间中一点(物点),CL,CRC_L,C_R分别是两个虚拟相机的光心,二者的连线称为基线baseline,基线与两成像平面的交点eL,eRe_L,e_R为极点;xL,xRx_L,x_R是像点,极点与像点的连线称为极线;相机光心与物点X所形成的平面为极平面。

由上可知,若CLXC_LX是NeRF中的一条ray,在其上面采样多个点,将这些点投影到右边的像平面,则这些点必定落在右边的极线上eR,xRe_R,x_R

Model Overview

在渲染一个pixel时,会参考邻近的K个reference view。具体分为三步,即数据处理、极线特征聚合、视图特征聚合。

  1. 数据处理:提取每个reference view关于cast ray的极点特征epipolar feature;
  2. first stage:聚合每个reference view自己的epipolar feature,得到view feature;
  3. second stage:聚合所有reference view的关于cast ray的视图特征view feature,得到最终的cast ray的颜色;

过程:

  1. target pixel casts one ray,在这条ray上采样P个点,pi=l(δi)p_i = l(\delta_i)
  2. 将每个点投影到每个参考视图的相机平面上去,由上面的对极几何约束可知,这些点在参考视图的相机平面的极线上(所以才叫做极线特征),将这些点输出为极线特征;
  3. 极线特征聚合得视图特征(自注意力权重αij\alpha_i^j
  4. 视图特征聚合的最终颜色(自注意力权重βj\beta^j

具体细节点击此处

损失函数

在训练阶段,除了要计算预测的颜色与真实的像素颜色的 loss,还额外引入了一个辅助损失,目的是使上述两个注意力权重αij\alpha_i^jβj\beta^j具有可解释性。在某种意义上αij\alpha_i^j越大,说明(极点xijx_i^j)与目标光线的匹配越好。βj\beta^j越小,就说明该视图j存在遮挡。实验证明,在引入了辅助损失后,模型渲染的准确率有显著提升。

感悟!!!

本文用的4D LF参数化scene应该不算是特别的亮点,重点是Multi-View/IBR,IBR是用邻近视图计算pixel的值,计算方式是最核心的。

本文利用对极几何约束,将cast ray上的采样点投影到参考视图相机平面的极线上,得到对应的极点(这些极点在一条线上,由对极几何约束)。这些极点对target pixle有贡献,但具体多大,不清楚(本文用自注意力权重αij\alpha_i^j表示,由网络学习)。极线特征融合得到每个参考视图关于target pixel的特征zj(1jK)z^j(1{\le}j{\le}K)这是pixel-level的IBR

视图特征融合是将K个视图关于target pixel的特征zj(1jK)z^j(1{\le}j{\le}K)进行融合,每个视图对target pixel都有贡献,但具体多大,不清楚(本文用自注意力权重βj\beta^j表示,由网络学习),这是view-level的IBR

因此,在某种意义上αij\alpha_i^j越大,说明(极点xijx_i^j)与target pixel的匹配越好,在计算时权重就大点。βj\beta^j越小,就说明该视图j存在遮挡,对target pixel的贡献更少。

与像素对齐特征pixel-aligned feature(见论文KeypointNeRF)很类似(都是投影到另一类平面,只不过一个是view,一个是feature maps),只不过PAF是将点投影到特征平面(用CNN或其它方式得到的),不属于IBR,因为特征平面是一张图经过多种方式得到多个特征平面。

赞赏