噪声预测(噪声预测的无监督学习)
本文摘要
1.本文从informax(信息最大化)算法入手,说明了如何最大程度地保留输入数据信息,进而学习最佳密集表示。
2.将表示限制为一个单位对informax算法的框架非常有利,本文说明了原因。
3.是否存在均匀分布的确定性表示,informax算法标准是否最大化,问题的答案非常明显。所以,如果我们相信这样的解确实存在,那么我们就可以直接寻找接近均匀分布的确定性映射。
4.“噪声目标法”(NAT)就是在单位范围边缘寻找一个均匀分布的确定性映射。具体来说,从统一样本出发,尽量减少“地动距离”(EMD)的实际运行。
5.Bojanowski和Joulin在他们的论文中提到了随机使用“匈牙利算法”来更新分布矩阵。在本文的最后,我也对此做了简要的说明。
通过最大化信息学习表征
假设我们现在将从一些pX分布中学习数据xn的密集表示。一般来说,表示可以用一个随机变量zn来表示,它经历了一些参数分布条件。
的取样。
xn∞pX
Zn∞pZ | X = xn,
在变化的自编码器中,该参数分布条件
它将被称为“编码器”或“识别模型”或“摊销变化后端”。然而,重要的是,我们现在正在与“编码器”进行一对一的工作,而没有明确指出生成的分布。
。
“信息最大化”原则是指一个好的表示的信息熵是密集分布的,同时在输入x中保留尽可能多的信息,这个目标可以形式化地表示为:
代表“相互信息”,
它代表“神农熵”。
我还介绍了以下符号分布:
在实践中,这些“优化问题”可能以各种不恰当的方式呈现,所以这些问题本身就有问题。
1.一般来说,边的熵是很难估计的。我们需要采取更明智的方式来限制它。
,不需要实际计算熵。
2.如果一个表示是确定的、可逆的,那么“互信息”在空的连续范围内无限循环,这些优化问题就变得没有意义了。所以,为了让这些优化问题有意义,我们需要保证那些病态的可逆行为永远不会出现。
为了解决上述问题,我们可以做如下改变:
1.首先,利用勒贝格有限测度,将z的定义域限定为
子集范围,以便微分熵
在这个领域中,将始终受到均匀分布熵的约束。为了与本文的内容保持一致,我们可以把表示的定义域限制在欧几里得单位上。
在…的范围内。
2.第二,试着把
和多噪声特性。
(
代表噪声)被最大化。我会假设
它遵循球形分布规则,这在实际操作中增加了来自任何给定范围的噪声
,设置一个
预测上限(或设定表示可逆性的上限);所以“互信息”是被框定的,被限制在一个有限的值内。那么我们的优化问题就变成了:
这个损失函数产生了一种直观的感觉:你可能以一种非常随机的方式将你的输入Xn映射到单位范围内的Zn,但是通过这样做,原始数据点Xn可以很容易地从噪声版本的Zn-改变
恢复。换句话说,我们正在寻找一种可以在一定程度上抵抗加性噪声的表示。
并确定统一的表示。
我们很容易指出是否至少有一个特征pZ | X;这种表示法有以下两个特点:
第一,Zn是Xn的确定性函数;第二,
是单位范围内的均匀分布。
如果你具备以上特征,那么这个
是信息最大化目标中的全局最佳点。
然而,值得注意的是,这种确定性表示可能不是唯一的,可能有许多好的表示,尤其是当
时间。
我们来看这个案例:假设X是一个标准的多元高斯,将Z表示为X的正态正交投影,例如,对于某些正交变换A:
z在单位范围内会有均匀分布,这也是一种确定性映射。所以Z是信息最大化的一种表示,这对于任何一个相同的正交映射a都是非常有利的。
因此,如果我们假设Px只有一个确定的统一表示,那么寻找一个确定的表示,能够将数据映射到一个大致均匀的分布,就具有重要的意义。
这就是噪声目标方法(NAT)的目的。
为了实现表示空之间的均匀分布,NAT采用的方法是最小化“地球移动距离”(EMD)。首先,我们根据已有的数据点随机抽取尽可能多的均匀分布,我们把这些均匀分布当作Cn。然后,我们尝试将每个Cn与一个数据点配对,直到Cn和相应的表示。
之间的“均方距离”已达到最小值。配对成功后,配对表示与噪声向量之间的“均方距离”就可以作为衡量分布均匀性的度量单位。的确,这是对Wasserstein距离(Pz分布与均匀分布之间的距离)的经验估计。
信息最大化的表征一定是好的表征吗?
在过去的几天里,我做了太多这种类型的演讲——什么是好的代表性?无监督表征学习到底是什么意思?对于InfoMax表示,您还可以问这样一个问题:这是寻找好的表示的最佳指导原则吗?
不够。对于初学者,你可以用任何方式转换你的表示。只要你的转换是可逆的,互信息应该是相同的。因此,你可以在可逆的条件下对你的表示进行任何转换,不管InfoMax的目标是什么。因此,InfoMax standard无法单独找到您的转换表示。
更有可能的是,我们在运营经验中看到的成功案例,是ConvNets和InfoMax原理结合的结果。我们只最大化ConvNet易于显示的表示中的信息。
本文总结了
NAT的令牌学习原理可以理解为寻找InfoMax令牌,即最大限度保留输入数据信息有限熵的令牌。“卷积神经网络实例”中有类似的信息最大化的解释,根据一个数据点的噪声版本来估计它的指数。一开始你肯定会觉得这些算法很奇怪,甚至超出常识,但是如果我们把这些算法重新解释为信息最大化工具,我们就会改进它们。至少我对他们有了更深的了解。
特别内容:关于EMD随机版本的一些提示
这种写法实现EMD测量的难点在于,你需要找到一个最优的分配方案,分配两个实际经验的分布和规模。
。然后,为了避免这个问题,作者提出了“最优分配矩阵”的任意更新升级,即每次只小批量更新升级所有对。
我不指望这个“最优分配矩阵”有用,但值得一提的是,这个矩阵使得这个算法很容易陷入局部极小。假设表示
的参数是固定的,我们改变和更新的只是分配。让我们看看下图中的解释:
这个2D球面单元(圆)上的X1、X2和X3分别是三个数据点,这些数据点之间的距离相等。有三种可能的噪声分布,它们之间的距离是相等的。C1、C2和C3是显而易见的,其中最优配置是X1与C1配对,X2与C2配对,X3与C3配对。
假设我们当前的映射是次优的,如图中蓝色箭头所示;现在我们只能更新尺寸为2的迷你批次上的分配。在size 2的minibatch上,我们的分配只有两种可能:一是保持原来的分配不变;第二,交换所有点,如图中红色箭头所示。在上面的例子中,保持原来的分配(蓝色箭头)比交换所有积分(红色箭头)更可行。所以minibatch的更新会使minibatch算法陷入这个局部极小。
但这并不意味着这种方法没有用。当...的时候
同时,这种方法确实可以摆脱这种局部极小。其次,批量越大,越难找到这样的局部极小值,算法越不会陷入极小值。
我们可以换一种思维方式,把这个任意的“匈牙利算法”的局部极小值看成一个图表。每个节点代表一个分配矩阵状态(一个分配排列),每个边对应一个基于minibatch的有效更新。一个局部最小值就是一个节点,而这个最小节点和它周围的n!与节点相比,成本更低。
如果我们将B的原始小批量扩大到N的总样本量,那么我们将得到N!节点,并且每个节点都将超过配额,达到
。那么任意两个节点相连的概率是
。Batch的B大小越大,我们的图就变得越紧,局部最小值就不存在了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 ZLME@xxxxxxxx@hotmail.com 举报,一经查实,立刻删除。