在少样本学习中双曲与欧几里得嵌入 2023-11-22 作者 C3P00 最近在表示学习领域的研究表明,层次数据在双曲空间中可以得到低维且高度信息丰富的表示。 然而,尽管在图像识别中双曲嵌入已经引起了人们的关注,但它们的优化仍然容易受到数值障碍的影响。 此外,与传统欧氏特征相比,尚不清楚哪些应用最有可能从双曲性所施加的隐式偏差中受益。 在本文中,我们关注原型双曲神经网络。 特别地,高维空间中双曲嵌入趋向于收敛到Poincaré球体的边界,以及这对少样本分类的影响。 我们发现,在公共双曲半径下的双曲嵌入可以获得最佳少样本结果。 与之前的基准结果相比,我们证明了使用欧氏度量的固定半径编码器可以实现更好的性能,而不管嵌入维数如何。 重点:1. 超球面(hyperbolic space)与欧氏空间(Euclidean space)相似,但曲率不同。2. 超球面存在多种同形模型,其中最常见的模型是超球面(hyperboloid)和波恩卡雷球(Poincaré ball)。3. 在机器学习中,超球面模型最常见的应用是波恩卡雷球模型。4. 波恩卡雷球模型可以从一个超球面模型(hyperboloid model)得到。5. 在本文中,我们将使用波恩卡雷球模型,该模型可以从超球面模型(hyperboloid model)得到。6. 考虑 Minkowski 空间 Rd,1={x=(x1, …, xd+1)∈Rd×R},以及双线性形式(Lorentz 伪标量)L⟨x, x⟩。7. L 形式在 Rd,1 上不是正定,但在 d-hyperboloid 上半平面内的曲率 k<0 时,是正定的。8. 我们可以通过包容映射ϕ将波恩卡雷球模型从超球面模型得到。9. 波恩卡雷球模型在原点处的指数映射是 TPd k → Pd k。10. 这使得我们可以将欧氏空间的神经网络转换为超球空间的神经网络。11. 在波恩卡雷球模型中,从任何∈Pd k 的 x 和 y 之间的最短路径距离可以通过计算 Pincaré球(Poincaré ball)得到。12. Ressler 等人提出的剪枝策略包括为 f(x; θ) 设置最大幅度 c,将波恩卡雷球缩小到半径为 c 的球中。13. 在训练过程中,对于合适的损失函数 L. 以及 z := h(x; θ)∈Pd k,可以对欧氏梯度∇z L 进行反向传播(见 [13] 的实现),或者将其转换为 Riemannian 梯度通过反比例缩放 grad z L = λ(z) -2 ∇z L(z),如 [12] 中所示。✅
最近在表示学习领域的研究表明,层次数据在双曲空间中可以得到低维且高度信息丰富的表示。 然而,尽管在图像识别中双曲嵌入已经引起了人们的关注,但它们的优化仍然容易受到数值障碍的影响。 此外,与传统欧氏特征相比,尚不清楚哪些应用最有可能从双曲性所施加的隐式偏差中受益。 在本文中,我们关注原型双曲神经网络。 特别地,高维空间中双曲嵌入趋向于收敛到Poincaré球体的边界,以及这对少样本分类的影响。 我们发现,在公共双曲半径下的双曲嵌入可以获得最佳少样本结果。 与之前的基准结果相比,我们证明了使用欧氏度量的固定半径编码器可以实现更好的性能,而不管嵌入维数如何。
1. 超球面(hyperbolic space)与欧氏空间(Euclidean space)相似,但曲率不同。
2. 超球面存在多种同形模型,其中最常见的模型是超球面(hyperboloid)和波恩卡雷球(Poincaré ball)。
3. 在机器学习中,超球面模型最常见的应用是波恩卡雷球模型。
4. 波恩卡雷球模型可以从一个超球面模型(hyperboloid model)得到。
5. 在本文中,我们将使用波恩卡雷球模型,该模型可以从超球面模型(hyperboloid model)得到。
6. 考虑 Minkowski 空间 Rd,1={x=(x1, …, xd+1)∈Rd×R},以及双线性形式(Lorentz 伪标量)L⟨x, x⟩。
7. L 形式在 Rd,1 上不是正定,但在 d-hyperboloid 上半平面内的曲率 k<0 时,是正定的。
8. 我们可以通过包容映射ϕ将波恩卡雷球模型从超球面模型得到。
9. 波恩卡雷球模型在原点处的指数映射是 TPd k → Pd k。
10. 这使得我们可以将欧氏空间的神经网络转换为超球空间的神经网络。
11. 在波恩卡雷球模型中,从任何∈Pd k 的 x 和 y 之间的最短路径距离可以通过计算 Pincaré球(Poincaré ball)得到。
12. Ressler 等人提出的剪枝策略包括为 f(x; θ) 设置最大幅度 c,将波恩卡雷球缩小到半径为 c 的球中。
13. 在训练过程中,对于合适的损失函数 L. 以及 z := h(x; θ)∈Pd k,可以对欧氏梯度∇z L 进行反向传播(见 [13] 的实现),或者将其转换为 Riemannian 梯度通过反比例缩放 grad z L = λ(z) -2 ∇z L(z),如 [12] 中所示。✅