弥合神经辐射场之间的差距采用渐进式体积蒸馏的架构

神经辐射场（NeRF）方法已被证明是 3D 场景的紧凑、高质量和多功能表示，并支持编辑、检索、导航等下游任务。各种神经架构都在争夺NeRF的核心结构，包括普通的多层感知器（MLP）、稀疏张量、低秩张量、哈希表及其组成。这些表示形式中的每一种都有其特定的权衡。例如，基于哈希表的表示允许更快的训练和渲染，但它们缺乏明确的几何含义，阻碍了下游任务，如空间关系感知编辑。在本文中，我们提出了渐进式体积蒸馏（PVD），这是一种系统的蒸馏方法，允许不同架构之间的任意转换，包括MLP、稀疏或低秩张量、哈希表及其组成。因此，PVD 使下游应用程序能够以事后方式对手头的任务进行最佳调整神经表示。转换速度很快，因为蒸馏是在不同级别的体积表示上逐步进行的，从浅到深。我们还采用了特殊的密度处理来处理其特定的数值不稳定问题。在NeRF-Synthetic、LLFF和TanksAndTemples数据集上验证了我们的方法。例如，使用 PVD，可以从基于哈希表的 Instant-NGP 模型中提炼出基于 MLP 的 NeRF 模型，其速度比从头开始训练原始 NeRF 快 10 倍~20 倍，同时实现卓越的合成质量水平。代码可在 https://github.com/megvii-research/AAAI2023-PVD 上获得。

Key Points

1. Novel view synthesis (NVS) 是一种生成 photo realistic 2D 图像的技术，用于三维场景的未知视角。NVS 已在渲染、定位和机器人手臂操作等领域得到广泛应用。最近开发的神经辐射场（NeRF）提供了神经建模能力。

2. NeRF 可以显著提高 NVS 的质量，利用多层感知器（MLP）的强大泛化能力。采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。

3. 特征张量过大导致寻找更紧凑表示的需求。TensorRF 等方法利用 VM（向量 – 矩阵）分解和序数分解（CPD）等方法实现特征张量的有效压缩。

4. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑和动态场景建模。但使用显性或混合表示通常具有更快的训练速度，能更好地处理几何上的编辑。

5. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。

6. 在本文中，我们提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点：深入了解 NeRF 中丰富且不断发展的架构体系结构，消除给设计带来的负担，适应训练好的模型以满足未来可能发现的应用场景需求。

7. PVD（渐进体积蒸馏）是一种在不同体积表示水平上操作的蒸馏方法，特别关注密度体积以获得更好的数值稳定性。PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。

8. Neural implicit representation 方法使用 MLP 从坐标空间构建 3D 场景，如 NeRF 所提出（Mildenhall 等人，2020）。MLP 的输入是 5D 坐标，输出是体积密度和视相关颜色。

9. 隐含建模的优点是，表示有助于控制或更改场景的类似属性。Kobayashi、Matsumoto 和 Sitzmann 使用预训练的 CLIP 模型（Radford 等人，2021）。

10. Explicit representations 将场景直接放置在 3D 格中（巨大的张量）。NVS 领域已经进行了多次尝试。Barron 等人提出了一种方法。

11. 我们试图在不同的 NeRF 架构之间实现相互转换。由于架构数量不断增加，我们不试图逐个实现这些转换。相反，我们首先将典型架构以统一的形式表示，然后根据统一视图设计一种基于统一视图的蒸馏方案。

12. 我们得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表（INGP）和低秩张量（TensorRF 中的 VM 分解）。

13. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。

14. 接下来，我们将简要介绍一些基础知识，然后详细介绍我们的方法。

15. NeRF 用一个隐函数将空间点 x = (x, y, z) 和视方向 d = (θ, φ) 映射到密度σ和颜色 c。对于沿光线方向 r 从点 o 出发的相应像素的 RGB 值ŷ(r)，通过 color c i 和空间点 x i = o + t i d 沿着光线采样得到：其中 T i = exp(-i-1j=1σiδi)，δi 是相邻样本之间的距离。

16. 张量和张量低秩表示。Plenoxels 通过显式网格（张量）直接表示 3D 场景（Fridovich-Keil 等人，2022）。每个网格点都存储密度和球面谐波（SH）系数。颜色 c 根据 SH 和观察方向 d 计算。

Related Work

1. Novel view synthesis (NVS) 生成 photo realistic 2D 图像，用于三维场景的未知视角（周等人，2018 年; 坎等人，2021 年; 西特曼，祖豪费和威斯坦，2019 年 a），并在渲染、定位和机器人手臂操作（Adamkiewicz 等人，2022 年; Moreau 等人，2022 年; Peng 等人，2021 年）等领域具有广泛的应用，特别是最近开发的神经辐射场（NeRF）提供了神经建模能力。
2. 利用多层感知器（MLP）的强大泛化能力，NeRF 可以显著提高 NVS 的质量。
3. 采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
4. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF（Chen 等人，2022 年）利用 VM（向量 – 矩阵）分解和序数分解（CPD），Fridovich-Keil 等人利用张量的稀疏性，而 INGP（Müller 等人，2022 年）利用多级哈希表实现特征张量的有效压缩。
5. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑（例如颜色、照明变化和变形等），艺术的风格化和动态场景建模（Tang 等人，2022 年; Kobayashi，Matsumoto 和 Sitzmann，2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年）。
6. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
7. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
8. 在本文中，我们从另一个角度处理这个问题。我们提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点。首先，该研究将深入了解 NeRF 中丰富且不断发展的架构体系结构。其次，这种转换消除了在事先确定架构之前给设计带来的负担，因为现在他们可以只需适应训练好的模型以满足未来可能发现的应用场景需求。最后，在教师和学生具有不同属性的情况下，可以利用这种辅助优势。例如，当使用具有哈希表的教师模型蒸馏学生模型的显性表示时，现在可以从教师的速度中受益，同时仍然生成具有清晰几何结构的学

Method

作者通过以下方法取得结果:

1. 利用 Novel view synthesis (NVS) 生成 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
2. 利用多层感知器 (MLP) 的强大泛化能力，显著提高 NVS 的质量。
3. 采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
4. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF(Chen 等人，2022 年) 利用 VM(向量 – 矩阵) 分解和序数分解 (CPD),Fridovich-Keil 等人利用张量的稀疏性，而 INGP(Müller 等人，2022 年) 利用多级哈希表实现特征张量的有效压缩。
5. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑 (例如颜色、照明变化和变形等),艺术的风格化和动态场景建模 (Tang 等人，2022 年; Kobayashi,Matsumoto 和 Sitzmann,2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年)。
6. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
7. 由于 NVS 的下游任务多样性，没有单一的最佳表示。选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
8. 在本文中，作者提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。这种灵活的转换可以带来以下优点。首先，该研究将深入了解 NeRF 中丰富且不断发展的架构体系结构。其次，这种转换消除了在事先确定架构之前给设计带来的负担，因为现在他们可以只需适应训练好的模型以满足未来可能发现的应用场景需求。最后，在教师和学生具有不同属性的情况下，可以利用这种辅助优势。
9. 作者还提出了一种方法，称为 PVD(渐进体积蒸馏),用于在不同体积表示水平上操作的蒸馏方法，特别关注密度体积以获得更好的数值稳定性。PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。这是第一个系统尝试这种转换。
10. 作者还提出了一种基于统一视图的蒸馏方案，可以在不同的 NeRF 架构之间实现相互转换。作者得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表 (INGP) 和低秩张量 (TensorRF 中的 VM 分解)。
11. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。
12. 接下来，作者简要介绍了一些基础知识，然后详细介绍了他们的方法。

Result

实验结果：

1. 利用 Novel view synthesis (NVS) 生成了 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
2. NeRF 可以显著提高 NVS 的质量，同时采用特征张量作为辅助的显性表示，以减轻 MLP 记住场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
3. 特征张量过大导致寻找更紧凑表示的需求，如 TensorRF（Chen 等人，2022 年）利用 VM（向量 – 矩阵）分解和序数分解（CPD），Fridovich-Keil 等人利用张量的稀疏性，而 INGP（Müller 等人，2022 年）利用多级哈希表实现特征张量的有效压缩。
4. 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑（例如颜色、照明变化和变形等），艺术的风格化和动态场景建模（Tang 等人，2022 年; Kobayashi，Matsumoto 和 Sitzmann，2022 年; Pumarola 等人，2021 年; Gu 等人，2021 年; Zhan 等人，2021 年）。
5. 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑，例如场景的合并和其他操作，与纯隐性表示的情况形成鲜明对比。
6. PVD（渐进体积蒸馏）是一种在不同体积表示水平上操作的蒸馏方法，从浅到深，特别关注密度体积以获得更好的数值稳定性。
7. PVD 能够实现不同 NeRF 架构之间的任何-to-any 转换，包括 MLP、稀疏张量、低秩张量和哈希表架构。这是第一个系统尝试这种转换。
8. Neural implicit representation 方法使用 MLP 从坐标空间构建 3D 场景，如 NeRF 所提出（Mildenhall 等人，2020）。
9. MLP 的输入是 5D 坐标（空间位置 [x, y, z] 和查看方向 [θ, φ]，输出是体积密度和视相关颜色）。
10. 隐含建模的优点是，表示有助于控制或更改场景的类似属性。
11. Kobayashi、Matsumoto 和 Sitzmann 使用预训练的 CLIP 模型（Radford 等人，2021）。
12. explicit representations 将场景直接放置在 3D 格中（巨大的张量）。
13. 在不同的 NeRF 架构之间实现相互转换。由于架构数量不断增加，我们不逐个实现这些转换。相反，我们首先将典型架构以统一的形式表示，然后根据统一视图设计一种基于统一视图的蒸馏方案。
14. 我们得出的公式包括像 NeRF 中的 MLP 这样的隐含表示、像 Plenoxels 中的稀疏张量这样的显式表示，以及两种混合表示：哈希表（INGP）和低秩张量（TensorRF 中的 VM 分解）。
15. 一旦形成，这些架构及其组合之间的任何-to-any 转换都是可能的。

Conclusion

1. 作者在这篇论文中得到的主要结论如下：
* Novel view synthesis (NVS) 技术可以生成 photo realistic 2D 图像，用于三维场景的未知视角，并在渲染、定位和机器人手臂操作等领域具有广泛的应用。
* NeRF 模型可以显著提高 NVS 的质量，而采用特征张量作为辅助的显性表示可以减轻 MLP 的记忆场景所有细节，从而实现更快的训练速度和更灵活的几何结构操作。
* 特征张量过大导致寻找更紧凑表示的需求，因此作者提出了一些方法，如 TensorRF，利用 VM（向量 – 矩阵）分解和序数分解实现特征张量的有效压缩。
* 所有这些方案都有其优缺点。一般来说，使用隐性表示更容易对场景进行纹理编辑和艺术的风格化和动态场景建模。
* 然而，使用显性或混合表示通常具有更快的训练速度，因为它们具有更浅层的表示，能更好地处理几何上的编辑。
* 选择特定的表示取决于具体的应用场景和可用的硬件计算能力。
* 该论文提出了一种方法，可以在已知的 NeRF 架构之间实现任意转换，包括 MLP、稀疏张量、低秩张量、哈希表以及它们的组合。
* 这种灵活的转换可以带来以下优点：深入了解 NeRF 中丰富且不断发展的架构体系结构，消除给设计带来的负担，适应训练好的模型以满足未来可能发现的应用场景需求。
* 作者还提出了一种 PVD（渐进体积蒸馏）方法，可以在不同体积表示水平上操作的蒸馏方法，以获得更好的数值稳定性。

发表评论 取消回复

发表评论取消回复