什么意思(意义分析)
近年来,自然语言处理取得了很大的进步,各种语音助手和翻译软件都有一定的实用价值。然而,他们对稍微复杂的句子的处理结果经常被人们当成笑话。这不可避免地让我们想起一个老问题:有一天,计算机真的会理解我们的意思吗?要回答这个问题,首先要搞清楚“意义”是什么。
在计算机出现之前,“意义”是语言学、逻辑学、心理学、哲学等领域的一个关键问题。语言研究中的意义问题是语义学的范畴,这里的语言不仅包括人类历史上形成的“自然语言”,还包括人为设计的“符号语言”,如数学语言、逻辑语言等。用语言交流时,单词和句子是意义的载体。为了保证有效的沟通,需要事先就单词和短语的含义达成一致。即使在一个系统中,单词和短语的含义也应该是处理它们的基础。清晰稳定的意义在交流和思考中的重要性不必过分强调,但我们如何确定意义呢?
对于一个单词或符号,有两种传统的(目前最常用的)方式来描述它的含义:引用和定义。前者视其为语言外事物的名称(如“鸟”指所有鸟类),后者视其为语言内结构的名称(如“鸟”指“有羽毛的卵生脊椎动物”)。这两种方法经常一起使用,即通过引用来确定简单单词的含义,然后通过它们来定义复杂的单词。虽然这种确定意义的方法对于很多问题来说是直观、自然和充分的,但仍然不能完全满足人工智能和认知科学的要求。主要问题如下:
●由于计算机对符号的处理只涉及其形式,而不涉及其引用,似乎人工智能系统仅靠形式处理规则无法把握符号的意义。虽然一个计算机程序可以编辑存储“两个黄鹂鸣绿柳,一行白鹭在蓝天飞翔”这句话,但它可能根本不知道“黄鹂”和“白鹭”是什么意思。
●我们使用的大量词汇(即使是科学和数学中的词汇)既没有明确的参考,也没有普遍接受的定义。这里的例子包括前一篇文章“当你谈论人工智能时,你在说什么?中的“智力”分析。最近在考虑什么问题?主要概念有没有被广泛接受的严格定义?
●即使是那些含义相对明确的词,其定义和引用也往往是历史演变的,取决于使用环境。一个词的“本义”和“现义”可以不同,尽管它们仍然是相关的。比如,语言学家发现,很多抽象词是从具象词发展而来的,就像说词可以“生长”一样。
因为词在认知系统中一般被表达为概念,所以对意义的研究对应于心理学中的各种概念理论。与语义学中的情况类似,经典概念理论将概念视为实例的集合,其意义来自定义。一个概念的定义可以是“外延的”,即列出所有的例子,也可以是“内涵的”,即列出例子的共同特征。这个概念定义为判断一个实例是否属于这个概念提供了充分必要的条件。不出所料,经典概念理论遇到了类似于经典语义理论的困难:我们使用的概念往往没有明确的界限,其用法极其灵活,不像“固体”,而更像“流体”。对于这方面的论述,我们可以看到侯世达的《哥德尔、埃舍尔和巴赫:异色大集》等作品。当然,更直接的例子在我们的生活中比比皆是,但我们往往视而不见。
在心理学中,经典概念理论有以下替代方案:
●“原型”理论:概念是由大多数实例的共同特征决定的,一个实例属于这个概念的程度取决于它与这些特征所塑造的“原型”的相似程度。根据这一理论,我们心中有一个“鸟”的原型,它是由“飞”、“羽”和“产卵”的特征塑造的。不会飞的鸵鸟还能算是鸟,但“隶属度”低。这可以看作是一个“内涵”方案,但大部分概念特征都是统计性的,不再是充分必要条件。
“例”论:概念是由有代表性的例子决定的,一个例子在多大程度上属于这个概念,取决于它是否与某个例子相似。比如“鸵鸟”、“黄鹂”、“白鹭”都可以是“鸟”的例子,但不一定要整合成一个独特的原型。鸸鹋被认为是成年鸟,因为它有点像鸵鸟。这可以看作是一种“延伸”方案,但概念中的例子不再一一列举。
●“理论”理论:概念是由其在“理论”(即信仰体系)中的作用决定的。例如,“羽毛”的含义取决于我们对鸟类的了解,包括它们保护身体和飞行的功能。这可以看作是一个“内涵式”的方案,但这里的概念特征体现在信仰体系中的地位和作用上,同一概念中的例子未必各方面都相似。
正如心理学中常见的那样,这些理论中的每一个都有自己的证据,心理学家们还没有就如何确定概念的含义达成共识。
作为智力理论的一部分,参考文献[2]给出了一个新的概念模型,目前称为“纳特模型”。这个模型的基本思想是把经验形成的广义关系作为概念的意义。如果A的概念被B的概念“泛化”,通常可以表述为“A是B的一种”,如“黄鹂是鸟的一种”。在这个关系中,主语“黄鹂”揭示了谓语“鸟”的部分外延(例),而谓语“鸟”也揭示了主语“黄鹂”的部分内涵(特征),所以在这个模型中,外延和内涵是广义关系的两个方面。这种关系可以向两个方向延伸,即一个“是一种”关系中的谓语可以同时是另一个“是一种”关系中的主语,如“鸟是一种动物”。这样就可以单独用这种关系构建一个概念层次结构,其中“高层”的概念更抽象(外延更大,内涵更小),而“低层”的概念更具体(外延更小,内涵更大)。
在一般关系中,主语和谓语可以是由其他项组成的“复合项”。比如《乌鸦是黑鸟》中,谓项“黑鸟”由“黑”和“鸟”组成。在复合术语的帮助下,其他概念关系可以被改写成具有相同含义的广义关系。比如“唐僧与孙武空是师徒”可以改写为“唐僧是孙武空的师父”“孙武空是唐僧的徒弟”。在这里,“孙武空”的师傅和“唐僧的徒弟”是复合物品。
以上例子虽然都是中文,但其中表达的关系是概念之间的关系,而不是词语之间的关系。这里的“项”是系统中概念的标识,不依赖于特定的自然语言。比如“乌鸦是黑鸟”在系统中实际上可能表示为“t1978 → t135”。当然,自然语言中的词也有相应的概念。例如,系统中可以有“乌鸦是名词”、“乌鸦由两个词组成”等概念关系,但这里的“乌鸦”和前面例子中的“乌鸦”指的是不同的概念。为了简单起见,我们称“乌鸦”为“词项”,因为它指向一种语言中的词,所以它可以用于系统之间的通信。相反,“t1978”是一个“内部项目”,因为它们只能在一个系统内使用。术语通常用来表示内部项目,如“‘乌鸦’表示t1978”,但表达关系是多对多,即不同的术语可以表示同一内部项目,同一术语也可以表示不同的内部项目。
不是所有的内部项目都可以用自然语言直接表达。事实上,我们经常找不到合适的词来准确地表达我们的想法。即使是那些与系统体验直接相关的概念,也不一定有对应的词汇,尤其是其中一些概括了特定的感知模式(如“红”、“黑”),还有一些与特定的操作或动作(如“推”、“敲”)相关。在这些概念中,上述广义关系也起着重要的作用,尽管它的外延或内涵包括无法用语言完全表达的感知和操作成分。下图简要展示了一些内部项(以T开头)、词项(中英文)和感知项(图片)之间的概括和表达关系。
综上所述,一个项目与其他项目的关系(或者它所识别的概念与其他概念的关系)体现在它的外延(它所概括的那些项目)和内涵(概括它的那些项目)上,它的总和就构成了此时此刻这个项目(或者它所识别的概念)对这个系统的意义。如果是一个词项,那么它的外延和内涵就是这个词的意义。
虽然Nath的模型不排除系统可能有“先天”的概念和信念,但概念的意义仍然主要来自经验。如果一个系统没有“苹果”的经验,那么这个词对它来说完全没有意义。在得知“苹果是一种水果”后,这个词和相应的概念开始有了意义,包括“它是一种水果”和通过推理从它衍生出来的信念,如“它是一种植物”和“它可以吃”。随着人们对“苹果”的了解越来越多,它的意义可能还包括它的形状、颜色、味道、手感等等,以至于它的栽培技术甚至它与一些历史人物的关系。简而言之,“苹果”的意义是系统经验的总和,包括直接经验和间接经验、言语表达和知觉运动,表现为以“苹果”为主项或谓语的一组广义关系。
当系统使用一个概念来解决当前问题时,一般不可能使用概念的全部含义(除非概念极其简单),而只能使用其中的一部分,这就造成了“当前含义”和“一般含义”的区别。前者通常只是后者的一小部分,其内容选择受到很多因素的影响,包括确定性程度、简单性、过去的有用性、与当前情况的相关性等。因为这些因素是不断变化的,同一个概念在不同的时间在系统中往往有不同的当下意义。经过足够的经验,一些概念会形成相对稳定的“基本意义”或“本质”,从中可以推导出概念意义的其他部分,而在其他概念中,这种“内核”可能找不到,从而无法为系统提供太多的效用。因此,不同的概念对系统有不同的价值。
在这个模型中,“新”的概念可能以下列方式出现:
●体验中出现从未见过的词语或感知模式,如第一次“鸸鹋”。
●生成复合术语“压缩体验”,如将“停止信号为红色”、“停止信号为浅”组合成“停止信号为浅红色”。如果这个组合之前没有被系统考虑过,那么“红灯”就是系统产生的新概念。
●如果一个概念的意义在一段时间内发生了不可逆转的重大变化,比如一个“非基本意义”变成了一个“基本意义”,可以说是演变成了一个新概念。比如“短信”的含义,现在和二十年前有很大的不同。
后两种方式往往使复合项在反复出现或发挥重要作用后逐渐作为一个整体使用,使其意义不能还原为其成分的意义。例如,在某些情况下,说“红灯”可能与“红”和“光”无关。这可以看作是对上一篇文章《计算机能有创造性吗?补充:电脑不仅能创造新方法,还能创造新概念。
由于概念和词语的意义是由相关的经验决定的,不同的系统总是有不同的经验,因此意义基本上是个人的和主观的。虽然具有相似经验的系统会有相似的概念,但通常不可能实现完全相同。意义的“客观性”成分主要是交流和社会化的产物,因为这些过程为不同的系统提供了相似的言语体验和社会体验,促使它们按照习俗和习惯使用词语。如果你想让别人理解你的意思,你最好用每个人都能接受的方式使用语言,尽管你独特的经历会给你关于如何使用单词的新想法。比如《人工智能:什么是“智能”?一方面,我挑战了“智能”这个词的普遍用法,另一方面,我试图为这个词提出一个新的工作定义,并在“深”的本义中寻找依据。社会范围的语义变化是由这种“分化”和“规范”的冲突努力引起的。一方面,大部分人的“语义脱轨”被纠正或忽略,但总有一些新奇的用词方式引起越来越多的共鸣,以至于远播或近播,甚至最终成为“标准语义”的一部分。在这个过程中,有“守规矩”和“不落俗套”的原因,因为前者维护语言的存在,后者促进语言的发展。具体例子中摔跤的结果取决于双方的力量对比。
上面介绍的“纳特模型”与传统的语义理论有着根本的不同。目前很多人还把电脑当成一个“物理符号系统”,认为里面的符号只有参考外界的事物才能有意义。为了解决“参照”或“解释”超出系统自身控制的问题,常见的对策是为具有感知运动模式的符号提供“基础”。这仍然是在指称语义学框架内解决意义问题的一种尝试。问题是词的意义不能完全归结为知觉运动模式(虽然有时是主要成分)。纳特模型中的术语可以称为“符号”,但它对系统的意义并不依赖于外部的参考或解释,而是体现在它与系统内其他符号的联系上。这种联系是对系统经验(包括但不限于知觉运动的经验)的选择性总结,而不是一成不变的定义或理论。系统对这个符号的处理不仅基于它的形式,而且基于它的意义。这样的体系不仅可以理解符号的意义,还可以改变和创造符号的意义。在这个模型中,参考语义仍然有用,但它仅限于提供一种在数学和其他领域使用“纯抽象概念”的方法。
事实上,上述所有的概念理论都试图用关系来描述概念,但原型理论使用内涵关系,范例理论使用外延关系,理论理论主要使用信念系统中的关系(尤其是因果关系)。由于纳特模型考虑了所有的概念关系,上述理论可以视为其特例。对于一个特定的概念,它的意义可能确实主要是由某种关系决定的,但更常见的是各种关系都有贡献。
实际上,把“意义”看作“所有关系的总和”并不是一个新概念。过去,在哲学、心理学和人工智能等领域都有类似的思想,但由于存在一些弱点,并没有成为意义理论的主流。Nath模式正是基于解决这些弱点。一个常见的批评是,这种确定意义的方式被认为是系统内的循环定义,与外界无关。纳特模型中的概念不是由其他概念定义的,而是由经验概念关系描述的。比如“苹果是一种水果”的知识,既没有用“水果”来定义“水果”也没有用“苹果”来定义“苹果”,而是同时用它们的关系来促成它们的意义,而这种关系来自于外界。将“意义”描述为“所有关系的总和”的另一个问题是,它过于笼统,无法解决具体问题。这种纳特模型的对策是将各种概念关系统一表示和处理成广义关系及其变体。最后一种观点是质疑当我们使用一个概念时,如何能涉及所有其他概念。在这一点上,纳特模型的不同之处在于,它指出当系统使用一个概念时,它通常只涉及其意义的一部分,同时解释了意义的语境相关性。
纳什模型的计算机实现证明了该模型的可行性,尽管仍有许多细节需要解决。根据该模型,概念和单词在人工智能系统中是有意义的,它们的意义由系统的相关经验决定。由于经验的差异,计算机对一个词的理解与人并不完全相同,但这种差异并不妨碍计算机用自然语言与人交流,完成越来越复杂的语言处理。那些还在用图灵测试作为人工智能定义的人,可能认为上述结论说明“真正的”人工智能是不可能的,但他们往往忘记了,由于文化、性别、年龄等差异,人与人之间存在着许多困惑和误解,各领域关于一个词的“真正含义”到底是什么的争论从未停止过。当时阿q认为城里人把“长椅”称为“长椅”很可笑,但类似的想法还没有被砍掉。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 ZLME@xxxxxxxx@hotmail.com 举报,一经查实,立刻删除。