失明(对科幻小说视而不见)
作者|穆青
编辑|群集结束
6月22日,北京致远大会召开认知神经科学基础专题论坛。北京师范大学认知神经科学与学习国家重点实验室毕艳超教授、北京大学心理与认知研究所方芳教授、北京师范大学心理学系刘佳教授、北京大学计算机科学系伍肆教授、中国科学院自动化研究所余山教授分别做了演讲,探讨认知神经科学能给AI带来哪些启示。
第四位演讲者是北京大学计算机系的伍肆教授,他的演讲题目是“生物视觉与计算机视觉的对话”。
伍肆教授在报告中指出,生物的视觉识别机制和深度神经网络的图像识别机制有很大的区别。生物的视觉识别涉及自上而下和自下而上两种通路的相互作用,而深层神经网络只模拟第二种通路。自上而下的视觉通路涉及生物视觉的全局感知、拓扑和多解性等特征,尤其是在理解图像时,这可能是深度神经网络的下一个改进方向。
以下为演讲全文,AI技术评论已安排,不改变初衷。
我的报告内容是生物视觉与计算机视觉研究的相互影响,以此来说明神经科学与人工智能研究的互动关系。这两个领域本质上都是在解锁智能的黑箱,所以它们之间相互启发是非常自然的。
一个
深度神经网络只模拟生物视觉的一部分。
深度神经网络是近年来人工智能的引擎,并且已经非常成功。在一些大数据集上,物体的识别率甚至超过了人类。然而,深度神经网络仍然面临许多问题。
首先,深度神经网络更多地模拟了大脑视觉皮层中的前馈和分层结构信息处理。然而,大脑的视觉系统比这复杂得多,因此在许多行为中,人脑与深层神经网络有很大不同。在许多任务中,人们表现得更好。
举个简单的例子。如下图所示,左边有一只熊,这只熊的局部信息被去掉了,只留下了轮廓,我们人类一眼就能认出它是熊。右图显示,熊被分成小块,然后被打乱,只留下局部信息,没有全局信息。我们可以发现这些小块包含了熊的眼睛、嘴巴和身体,但是很难识别右边的图片是熊,而深层神经网络一眼就能识别出右边的图片是熊。
通过比较可以发现,深度学习网络的对象识别机制与人类有很大的不同。人类可以获取物体的全局信息进行识别,但目前深度神经网络只能利用局部信息进行识别。
无法获得全局信息是深度学习,特别是前馈神经网络面临的一个基本问题,已经实现很久了。人工智能的先驱马文·明斯基在1969年指出,前馈神经网络很难识别拓扑性质。
拓扑学是一门研究几何图形或空的某些性质的学科,这些性质在形状连续变化后可以保持不变。它只考虑对象之间的位置关系,而不考虑它们的形状和大小。在拓扑学中,重要的拓扑性质包括连通性和紧性。
全局信息很难通过前馈网络获得,即使要获得,计算复杂度也会成倍增加。拓扑信息和全局信息的获取是深度学习网络面临的基本问题。
因此,我们有必要了解生物视觉系统如何获得全局信息。神经科学领域一直存在着广泛的争论,即人类是根据全局信息还是局部信息来识别物体。与这两种观点相对应的典型例子是两种画派。如下图所示,左图属于印象派。如果只看局部,看不清眼睛或鼻子,但从整体辨认就能知道这是人。这是从全局信息中识别对象的一个例子。右边的这幅画属于立体主义。这张照片特别放大了每个地方的信息。毕加索说这幅画是一个美丽的女孩,但许多人认为它不能被看到,因为局部信息不能被组合成整体信息。这是一个从本地信息识别物体的例子。
深度学习网络通过聚集局部信息和逐步构建复杂信息来识别对象。相反,认知神经科学领域有一种理论叫“逆向层次理论”,指出人类对物体的识别是从简单到复杂,从整体到局部的。
“反向层级理论”与我们的生活经验是一致的。如果一个人在我们的视野中闪过,你会立刻意识到这是一个个体,然后识别出对方的身份。这是一个从整体到细节的认知过程。
从神经科学的角度来看,我们看到了人类视觉认知和机器学习的显著区别。下图显示了一个实验,实验对象是盲人。失明是指意识层面“看不到”物体,但能“感知”物体的存在。
大量实验表明,人类为了看到或认识物体,至少需要在视觉皮层V1接受物体的信息。如果V1受损,可能会失明。此时,物体可以被感知,因为皮层下通路仍然存在,这是一条从视网膜到上丘再到更高皮层的短通路。
科学家用动物实验更好地证明了这一点。当他们把老鼠放在笼子里时,天花板上会有一个动态刺激,即一个小点会迅速变大,这模拟了自然环境中老鹰向老鼠猛扑时,老鼠视网膜接收到的光信号。这时,老鼠的第一本能就是装死。科学家发现,通过操纵上丘的神经元反应,老鼠看到移动的光点后可以停止装死,或者即使没有移动的光点,老鼠也可以主动装死。本实验表明,本能快速反应采取皮层下通路,而不是深度神经网络模拟的皮层下通路。
在老鼠把移动的斑点当成鹰的实验中,老鼠没有刻意辨别刺激是斑点还是鹰,立即假装死亡。这是动物的一种本能反应,即老鼠无需进行详细的特征提取就能识别运动模式。
参考这个例子,我们提出了一种在识别运动模式时无需特征提取的新算法。我们建立了一个模型,它由两部分组成。下图左下方为外部输入,黑色圆圈中的网络代表视网膜。在这里,“视网膜”的计算非常简单。它将运动模式投影到高维空中,使运动模式线性可分,然后将其输入到决策网络中。“视网膜”中有许多神经元,相当于一个图书馆网络。我们不需要培训图书馆网络和选择网络,只需要培训图书馆网络和选择网络之间的连接。
关于选择网络,我将以两个神经元为例进行说明。如下图所示,每个选择神经元代表一种要识别的运动模式。这些神经元的动力学特别慢,因为识别运动模式的关键是掌握输入的时间结构,而不仅仅是空结构。这些选择神经元之间存在相互抑制,每个神经元通过库网络的输入收集证据。如果证据支持它自己编码的运动模式,这个神经元的反应会抑制其他神经元的活动,最终获胜。
该模型的计算本质是对时间空模式的识别,因此我们可以将该模型扩展用于步态识别。在该任务中,人在屏幕前行走1-2次,然后将步态输入模型进行识别。这种模型的优点是可以用很小的样本进行训练,只需要1-2次的数据就可以立即学习一个人的步态特征。
2
生物视觉是一个动态的交互过程。
我们引入一个心理物理实验来说明从整体到局部的认知实际上是不可避免的。请看下图,猜猜是什么。
如果你以前没看过这张图,你就猜不出来,所以我画出了图像的轮廓。
现在你可以看到图中有一头牛。如果去掉牛的轮廓,你仍然认为它是图片中的牛,因为你的大脑中已经有了牛从上到下的先验知识。但这只是其中一个答案。我也可以画一只手的轮廓,然后去掉轮廓。这时,你会认为图片是一只手,因为你从上到下都有手的先验知识。
我还能在画中画一条鱼。相信这个时候你会觉得是图中的鱼。
这个实验表明,当人类识别物体时,大脑皮层自上而下的信号非常重要。
这个简单的实验揭示了一个深刻的图像理解的数学问题,即给定一个图像,理论上有无限多种解释。注意,图像理解不同于物体识别。图像理解涉及两个基本操作,一个是图像分割,另一个是对象识别。
但是两者的顺序是一个很难的悖论:给你一个图像,没有适当的分割,如何很好地识别它;另一方面,如果没有对象的预识别,我们如何进行适当的分割?从数学上讲,一幅图像有无限多种分割和识别方式,因此它在数学上是一个不适定问题。无论是人类还是AI,图像理解都面临着这样的问题。
大脑解决这个问题的思维是一个“猜测和确认”的过程。当我们识别一个物体时,物体的图像信息被快速传递到更高的皮层,也就是通过所谓的快速路径,我们在更高的皮层进行猜测。然后,通过反馈连接将猜测与新输入进行交叉检查,以便重复后可以识别对象。
我们在日常生活中很难意识到这个过程,因为在日常生活中,往往只需要一两轮就能成功识别。但是有时候一个图像确实看不清楚,我们会从左到右盯着它。信息可以在大脑中交替上传和下载,“猜-验证-猜-验证”不断进行。只要验证结果是否定的,这个过程将继续,直到获得肯定的结果。
神经生物学充分证明了人脑的识别机制是真实的。解剖学上,从高级视觉皮层到初级视觉皮层的反馈连接比前馈连接多。相比之下,深度学习网络主要考虑前馈连接。电生理实验证据也表明,大脑对物体的识别首先发生在高级视觉皮层,然后是低级视觉皮层。
一般来说,生物视觉识别至少有两种方式。快速方式识别整个对象,结果帮助慢速方式识别对象的局部信息。
以下是我们最近的一项工作,介绍了全局识别如何通过反馈来提高局部识别。当我们考虑识别物体时,我们首先识别大类的物体,然后根据大类的信息帮助识别小类的物体。比如我们看到一张图片,先把它识别为动物,再识别为猫,进一步识别是什么猫。我们发现大规模信息可以通过正反馈和负反馈帮助小规模信息识别。
第一步是Push反馈,用于抑制类与类之间的噪声。假设高级大脑区域识别出物体是猫,它会告诉低级大脑区域停止处理狗的信息。这是正反馈,增强了猫的信息,抑制了狗的信息。第二步是Pull反馈,其作用是抑制类内噪声,即从猫的信息中减去平均猫共性,放大不同猫之间的细微差别。
一般来说,生物视觉的识别机制与深度神经网络的图像识别机制有很大的不同。生物视觉识别涉及自上而下路径和自下而上路径的交互,而深度神经网络只模拟第二条路径。自上而下的视觉通路涉及生物视觉感知的全局、拓扑和多解特性,可能是深度神经网络的下一个改进方向。认知神经科学和人工智能应该多交流,互相学习。根据以往的经验,这样做往往能带来惊喜。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 ZLME@xxxxxxxx@hotmail.com 举报,一经查实,立刻删除。