知乐空间

噪声预测的无监督学习(噪声预测)

噪声预测(噪声预测的无监督学习)

本文摘要

1.本文从informax(信息最大化)算法入手,说明了如何最大程度地保留输入数据信息,进而学习最佳密集表示。

2.将表示限制为一个单位对informax算法的框架非常有利,本文说明了原因。

3.是否存在均匀分布的确定性表示,informax算法标准是否最大化,问题的答案非常明显。所以,如果我们相信这样的解确实存在,那么我们就可以直接寻找接近均匀分布的确定性映射。

4.“噪声目标法”(NAT)就是在单位范围边缘寻找一个均匀分布的确定性映射。具体来说,从统一样本出发,尽量减少“地动距离”(EMD)的实际运行。

5.Bojanowski和Joulin在他们的论文中提到了随机使用“匈牙利算法”来更新分布矩阵。在本文的最后,我也对此做了简要的说明。

通过最大化信息学习表征

假设我们现在将从一些pX分布中学习数据xn的密集表示。一般来说,表示可以用一个随机变量zn来表示,它经历了一些参数分布条件。

的取样。

xn∞pX

Zn∞pZ | X = xn,

在变化的自编码器中,该参数分布条件

它将被称为“编码器”或“识别模型”或“摊销变化后端”。然而,重要的是,我们现在正在与“编码器”进行一对一的工作,而没有明确指出生成的分布。

“信息最大化”原则是指一个好的表示的信息熵是密集分布的,同时在输入x中保留尽可能多的信息,这个目标可以形式化地表示为:

代表“相互信息”,

它代表“神农熵”。

我还介绍了以下符号分布:

在实践中,这些“优化问题”可能以各种不恰当的方式呈现,所以这些问题本身就有问题。

1.一般来说,边的熵是很难估计的。我们需要采取更明智的方式来限制它。

,不需要实际计算熵。

2.如果一个表示是确定的、可逆的,那么“互信息”在空的连续范围内无限循环,这些优化问题就变得没有意义了。所以,为了让这些优化问题有意义,我们需要保证那些病态的可逆行为永远不会出现。

为了解决上述问题,我们可以做如下改变:

1.首先,利用勒贝格有限测度,将z的定义域限定为

子集范围,以便微分熵

在这个领域中,将始终受到均匀分布熵的约束。为了与本文的内容保持一致,我们可以把表示的定义域限制在欧几里得单位上。

在…的范围内。

2.第二,试着把

和多噪声特性。

代表噪声)被最大化。我会假设

它遵循球形分布规则,这在实际操作中增加了来自任何给定范围的噪声

,设置一个

预测上限(或设定表示可逆性的上限);所以“互信息”是被框定的,被限制在一个有限的值内。那么我们的优化问题就变成了:

这个损失函数产生了一种直观的感觉:你可能以一种非常随机的方式将你的输入Xn映射到单位范围内的Zn,但是通过这样做,原始数据点Xn可以很容易地从噪声版本的Zn-改变

恢复。换句话说,我们正在寻找一种可以在一定程度上抵抗加性噪声的表示。

并确定统一的表示。

我们很容易指出是否至少有一个特征pZ | X;这种表示法有以下两个特点:

第一,Zn是Xn的确定性函数;第二,

是单位范围内的均匀分布。

如果你具备以上特征,那么这个

是信息最大化目标中的全局最佳点。

然而,值得注意的是,这种确定性表示可能不是唯一的,可能有许多好的表示,尤其是当

时间。

我们来看这个案例:假设X是一个标准的多元高斯,将Z表示为X的正态正交投影,例如,对于某些正交变换A:

z在单位范围内会有均匀分布,这也是一种确定性映射。所以Z是信息最大化的一种表示,这对于任何一个相同的正交映射a都是非常有利的。

因此,如果我们假设Px只有一个确定的统一表示,那么寻找一个确定的表示,能够将数据映射到一个大致均匀的分布,就具有重要的意义。

这就是噪声目标方法(NAT)的目的。

为了实现表示空之间的均匀分布,NAT采用的方法是最小化“地球移动距离”(EMD)。首先,我们根据已有的数据点随机抽取尽可能多的均匀分布,我们把这些均匀分布当作Cn。然后,我们尝试将每个Cn与一个数据点配对,直到Cn和相应的表示。

之间的“均方距离”已达到最小值。配对成功后,配对表示与噪声向量之间的“均方距离”就可以作为衡量分布均匀性的度量单位。的确,这是对Wasserstein距离(Pz分布与均匀分布之间的距离)的经验估计。

信息最大化的表征一定是好的表征吗?

在过去的几天里,我做了太多这种类型的演讲——什么是好的代表性?无监督表征学习到底是什么意思?对于InfoMax表示,您还可以问这样一个问题:这是寻找好的表示的最佳指导原则吗?

不够。对于初学者,你可以用任何方式转换你的表示。只要你的转换是可逆的,互信息应该是相同的。因此,你可以在可逆的条件下对你的表示进行任何转换,不管InfoMax的目标是什么。因此,InfoMax standard无法单独找到您的转换表示。

更有可能的是,我们在运营经验中看到的成功案例,是ConvNets和InfoMax原理结合的结果。我们只最大化ConvNet易于显示的表示中的信息。

本文总结了

NAT的令牌学习原理可以理解为寻找InfoMax令牌,即最大限度保留输入数据信息有限熵的令牌。“卷积神经网络实例”中有类似的信息最大化的解释,根据一个数据点的噪声版本来估计它的指数。一开始你肯定会觉得这些算法很奇怪,甚至超出常识,但是如果我们把这些算法重新解释为信息最大化工具,我们就会改进它们。至少我对他们有了更深的了解。

特别内容:关于EMD随机版本的一些提示

这种写法实现EMD测量的难点在于,你需要找到一个最优的分配方案,分配两个实际经验的分布和规模。

。然后,为了避免这个问题,作者提出了“最优分配矩阵”的任意更新升级,即每次只小批量更新升级所有对。

我不指望这个“最优分配矩阵”有用,但值得一提的是,这个矩阵使得这个算法很容易陷入局部极小。假设表示

的参数是固定的,我们改变和更新的只是分配。让我们看看下图中的解释:

这个2D球面单元(圆)上的X1、X2和X3分别是三个数据点,这些数据点之间的距离相等。有三种可能的噪声分布,它们之间的距离是相等的。C1、C2和C3是显而易见的,其中最优配置是X1与C1配对,X2与C2配对,X3与C3配对。

假设我们当前的映射是次优的,如图中蓝色箭头所示;现在我们只能更新尺寸为2的迷你批次上的分配。在size 2的minibatch上,我们的分配只有两种可能:一是保持原来的分配不变;第二,交换所有点,如图中红色箭头所示。在上面的例子中,保持原来的分配(蓝色箭头)比交换所有积分(红色箭头)更可行。所以minibatch的更新会使minibatch算法陷入这个局部极小。

但这并不意味着这种方法没有用。当...的时候

同时,这种方法确实可以摆脱这种局部极小。其次,批量越大,越难找到这样的局部极小值,算法越不会陷入极小值。

我们可以换一种思维方式,把这个任意的“匈牙利算法”的局部极小值看成一个图表。每个节点代表一个分配矩阵状态(一个分配排列),每个边对应一个基于minibatch的有效更新。一个局部最小值就是一个节点,而这个最小节点和它周围的n!与节点相比,成本更低。

如果我们将B的原始小批量扩大到N的总样本量,那么我们将得到N!节点,并且每个节点都将超过配额,达到

。那么任意两个节点相连的概率是

。Batch的B大小越大,我们的图就变得越紧,局部最小值就不存在了。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 ZLME@xxxxxxxx@hotmail.com 举报,一经查实,立刻删除。

留言与评论(共有 0 条评论)
验证码: