噪声预测的无监督学习（噪声预测）--知乐空间

噪声预测(噪声预测的无监督学习)

本文摘要

1.本文从informax(信息最大化)算法入手，说明了如何最大程度地保留输入数据信息，进而学习最佳密集表示。

2.将表示限制为一个单位对informax算法的框架非常有利，本文说明了原因。

3.是否存在均匀分布的确定性表示，informax算法标准是否最大化，问题的答案非常明显。所以，如果我们相信这样的解确实存在，那么我们就可以直接寻找接近均匀分布的确定性映射。

4.“噪声目标法”(NAT)就是在单位范围边缘寻找一个均匀分布的确定性映射。具体来说，从统一样本出发，尽量减少“地动距离”(EMD)的实际运行。

5.Bojanowski和Joulin在他们的论文中提到了随机使用“匈牙利算法”来更新分布矩阵。在本文的最后，我也对此做了简要的说明。

通过最大化信息学习表征

假设我们现在将从一些pX分布中学习数据xn的密集表示。一般来说，表示可以用一个随机变量zn来表示，它经历了一些参数分布条件。

的取样。

xn∞pX

Zn∞pZ | X = xn，

在变化的自编码器中，该参数分布条件

它将被称为“编码器”或“识别模型”或“摊销变化后端”。然而，重要的是，我们现在正在与“编码器”进行一对一的工作，而没有明确指出生成的分布。

。

“信息最大化”原则是指一个好的表示的信息熵是密集分布的，同时在输入x中保留尽可能多的信息，这个目标可以形式化地表示为:

代表“相互信息”，

它代表“神农熵”。

我还介绍了以下符号分布:

在实践中，这些“优化问题”可能以各种不恰当的方式呈现，所以这些问题本身就有问题。

1.一般来说，边的熵是很难估计的。我们需要采取更明智的方式来限制它。

，不需要实际计算熵。

2.如果一个表示是确定的、可逆的，那么“互信息”在空的连续范围内无限循环，这些优化问题就变得没有意义了。所以，为了让这些优化问题有意义，我们需要保证那些病态的可逆行为永远不会出现。

为了解决上述问题，我们可以做如下改变:

1.首先，利用勒贝格有限测度，将z的定义域限定为

子集范围，以便微分熵

在这个领域中，将始终受到均匀分布熵的约束。为了与本文的内容保持一致，我们可以把表示的定义域限制在欧几里得单位上。

在…的范围内。

2.第二，试着把

和多噪声特性。

（

代表噪声)被最大化。我会假设

它遵循球形分布规则，这在实际操作中增加了来自任何给定范围的噪声

，设置一个

预测上限(或设定表示可逆性的上限)；所以“互信息”是被框定的，被限制在一个有限的值内。那么我们的优化问题就变成了:

这个损失函数产生了一种直观的感觉:你可能以一种非常随机的方式将你的输入Xn映射到单位范围内的Zn，但是通过这样做，原始数据点Xn可以很容易地从噪声版本的Zn-改变

恢复。换句话说，我们正在寻找一种可以在一定程度上抵抗加性噪声的表示。

并确定统一的表示。

我们很容易指出是否至少有一个特征pZ | X；这种表示法有以下两个特点:

第一，Zn是Xn的确定性函数；第二，

是单位范围内的均匀分布。

如果你具备以上特征，那么这个

是信息最大化目标中的全局最佳点。

然而，值得注意的是，这种确定性表示可能不是唯一的，可能有许多好的表示，尤其是当

时间。

我们来看这个案例:假设X是一个标准的多元高斯，将Z表示为X的正态正交投影，例如，对于某些正交变换A:

z在单位范围内会有均匀分布，这也是一种确定性映射。所以Z是信息最大化的一种表示，这对于任何一个相同的正交映射a都是非常有利的。

因此，如果我们假设Px只有一个确定的统一表示，那么寻找一个确定的表示，能够将数据映射到一个大致均匀的分布，就具有重要的意义。

这就是噪声目标方法(NAT)的目的。

为了实现表示空之间的均匀分布，NAT采用的方法是最小化“地球移动距离”(EMD)。首先，我们根据已有的数据点随机抽取尽可能多的均匀分布，我们把这些均匀分布当作Cn。然后，我们尝试将每个Cn与一个数据点配对，直到Cn和相应的表示。

之间的“均方距离”已达到最小值。配对成功后，配对表示与噪声向量之间的“均方距离”就可以作为衡量分布均匀性的度量单位。的确，这是对Wasserstein距离(Pz分布与均匀分布之间的距离)的经验估计。

信息最大化的表征一定是好的表征吗？

在过去的几天里，我做了太多这种类型的演讲——什么是好的代表性？无监督表征学习到底是什么意思？对于InfoMax表示，您还可以问这样一个问题:这是寻找好的表示的最佳指导原则吗？

不够。对于初学者，你可以用任何方式转换你的表示。只要你的转换是可逆的，互信息应该是相同的。因此，你可以在可逆的条件下对你的表示进行任何转换，不管InfoMax的目标是什么。因此，InfoMax standard无法单独找到您的转换表示。

更有可能的是，我们在运营经验中看到的成功案例，是ConvNets和InfoMax原理结合的结果。我们只最大化ConvNet易于显示的表示中的信息。

本文总结了

NAT的令牌学习原理可以理解为寻找InfoMax令牌，即最大限度保留输入数据信息有限熵的令牌。“卷积神经网络实例”中有类似的信息最大化的解释，根据一个数据点的噪声版本来估计它的指数。一开始你肯定会觉得这些算法很奇怪，甚至超出常识，但是如果我们把这些算法重新解释为信息最大化工具，我们就会改进它们。至少我对他们有了更深的了解。

特别内容:关于EMD随机版本的一些提示

这种写法实现EMD测量的难点在于，你需要找到一个最优的分配方案，分配两个实际经验的分布和规模。

。然后，为了避免这个问题，作者提出了“最优分配矩阵”的任意更新升级，即每次只小批量更新升级所有对。

我不指望这个“最优分配矩阵”有用，但值得一提的是，这个矩阵使得这个算法很容易陷入局部极小。假设表示

的参数是固定的，我们改变和更新的只是分配。让我们看看下图中的解释:

这个2D球面单元(圆)上的X1、X2和X3分别是三个数据点，这些数据点之间的距离相等。有三种可能的噪声分布，它们之间的距离是相等的。C1、C2和C3是显而易见的，其中最优配置是X1与C1配对，X2与C2配对，X3与C3配对。

假设我们当前的映射是次优的，如图中蓝色箭头所示；现在我们只能更新尺寸为2的迷你批次上的分配。在size 2的minibatch上，我们的分配只有两种可能:一是保持原来的分配不变；第二，交换所有点，如图中红色箭头所示。在上面的例子中，保持原来的分配(蓝色箭头)比交换所有积分(红色箭头)更可行。所以minibatch的更新会使minibatch算法陷入这个局部极小。

但这并不意味着这种方法没有用。当...的时候

同时，这种方法确实可以摆脱这种局部极小。其次，批量越大，越难找到这样的局部极小值，算法越不会陷入极小值。

我们可以换一种思维方式，把这个任意的“匈牙利算法”的局部极小值看成一个图表。每个节点代表一个分配矩阵状态(一个分配排列)，每个边对应一个基于minibatch的有效更新。一个局部最小值就是一个节点，而这个最小节点和它周围的n！与节点相比，成本更低。

如果我们将B的原始小批量扩大到N的总样本量，那么我们将得到N！节点，并且每个节点都将超过配额，达到

。那么任意两个节点相连的概率是

。Batch的B大小越大，我们的图就变得越紧，局部最小值就不存在了。

点击展开全文