繁体版 | 简体版 | 手机版
您当前的位置:Home> 科技前沿> 最新发现> 科技> > 正文
语音机器人的语言困局(三) 多义词
时间:2013-04-23 11:38 来源:美国资讯网
字号:【

 
    交谈机器人(以及打造交谈机器人的工程师)首先遇到的向题之一是,我们日常谈话中所用到的词,有许多属于同音异义字,即有多种意义。比如,“bank”可指银行(“John cashed a check at the bank”,约翰在银行兑换了一张支票),也可指河岸(“John swam to the nearest bank”,约翰向最近的岸边游去)。
    人们在遇到这类句子时很快就会锁定正确的意义。美国加利福尼亚大学圣迭戈分校的心理语言学家西玛•范佩滕(Cyma van Petten)、马塔•库塔斯(Marta Kutas)在1987年的一篇著名论文中,阐述了“词汇启动”(lexical priming,指的是人们遇见某个单词时,该单词即会提示人们注意与语境相关的其他单词的意义),论证了人的这种能力。两位语言学家发现,当人们看到一个“bank”之类的多义词后刚半秒多点,他们就注意到提示语境的其他关键词汇了(如“money”和“river”)。
    对于某些特殊群体,这些功能会有异常。2002年,美国塔夫斯大学的塔蒂亚纳•斯蒂尼科娃(Tatiana Sitnikova)和同事发现,精神分裂症患者无法排除一个多义词与前后语境搭不上界的意义。比如,他们看到“bat”(有球拍与蝙蝠两种意义)之后一秒多钟,仍有“本垒打”和“吸血蝠”这两个意思在他们的脑袋里面转。
    不过,上述研究仅能告诉我们,大多数人可以根据语境,很快搞定同音异义的状况。但对设计交谈机器人的工程师来说,问题在于人们并不知道自己是如何做到这一点的。有一种理论认为,我们利用了多义词前后的词。例如,对银行的论述中常有“支票”、“兑现金”等字眼,而对河岸的描述中常有“游泳”、 “水”等字眼。或许,我们就是直接由此领悟到,某些词提示了“bank”的一种意义,而另一些词则提示了“bank”的另一种意义。
    比同音异义字更难摆平的是它的“同党”——多义词。多义词与同音异义词一样有多种意义,但其各种意义是密切相关的。比如在“Jane Austen wrote many books”(简•奥斯汀写过许多作品)与“I read some Jane Austen this afternoon.”(今天下午我读了简•奥斯汀写的一些作品)两句中,“Jane Austen”在头一句里指的是作者,而第二句中则指她的作品。其实,不仅是所有作者的名字,所有传媒名称都存在多义现象。“Rupert Murdoch has bought the Wall Street Journal”是指这位报业巨头买下了该报社,把默多克换成我,“I have bought the Wall Street Journal”,则是说我买了一期《华尔街日报》。
    对多义词,语境显然也非常重要,但这类区别相当微妙,很难界定。“bank”的两种意义很少出现在同一个句子中,但“Jane Austen”却往往与“Pride and Prejudice”(傲慢与偏见)出现在同一个句子中,有时指作者,有时则指其作品,因此,只依靠前后的字词来澄清歧义并不总是行得通的。我们仍然未完全弄明白人们如何找出正确的意义。
    诸如“bank” 和“Jane Austen” 之类的词汇之所以造成麻烦,就是因为它们有几种含义。那么,可怜的机器人如果必须面对具有几乎无穷多种意义的代词,其处境岂不是更加值得同情?在“I wrote Pride and Prejudice”(我写了《傲慢与偏见》一书)这个句子中,如果是简•奥斯汀自己在讲这句话,那么代词“I” 就是指她。如果讲话的是扮演简•奥斯汀的演员[如出演电影《珍爱来临》(Becoming Jane)中简•奥斯汀一角的安妮•海瑟薇],那么“I” 就不是指讲话的人,而是指她所演的人。这类情况无法用一条简单的规则来概括。第三人称代词则更为棘手。在“She wrote Pride and Prejudice”(她写了《傲慢与偏见》一书)这个句子中,不论是谁在讲这句话,代词“she” 都可以指任何一位女性。机器人不可能撇开这些歧义不管而自顾自地翻译下去,因为如果不知道这个句子讲的是谁,那这句话就几乎没有什么意义。
    要想搞定这个代词瓶颈,最出名的解决方案或许要算所谓中心理论(Centering Theory)。该理论是哈佛大学计算机科学家巴巴拉•格罗斯(Barbara Grosz)及宾夕法尼亚大学计算机科学家阿拉文德•K•乔斯(Aravind K. Joshi)和哲学家斯科特•温斯坦(Scott Weinstein)在上世纪八九十年代提出并加以完善的,该理论全面阐释了在一段比较长的讲话中,各个句子是如何和谐地对接的。中心理论认为,人们通常用“she”之类的代词来指代前一句的中心(即最主要的角色),也就是这句话的主语。这种说法可以解释为何在“Jane Austen was an author. She wrote Pride and Prejudice”(简•奥斯汀是一位作家。她写了《傲慢与偏见》一书)等句子中,人们一般以“she”指代简•奥斯汀。
    遗憾的是,对机器人而言,事情并不总是如此简单。心理语言学家詹妮弗•阿诺德(Jennifer Arnold)在1998年的论文中估计,作主语的人称代词中,仅有约64%指代前面的主语。此外,多项研究——最早可追溯到约翰斯•霍普金斯大学的语言学家凯瑟琳•加维(Catherine Garvey)和神经科学家阿方索•卡拉马扎(Alfonso Caramazza)在1974年的一篇开创性论文——已经揭示,人们在解读代词的指代时,语境线索之微妙复杂堪称令人抓狂。例如,我与哈佛大学心理学家杰西•斯内德克(Jesse Snedeker)在一篇论文中报道了这样一个结果:对于“Sally frightened Mary because she is strange”(萨丽吓着了玛丽,因为她是陌生人)一句,绝大多数人认为代词“she”是指萨丽,但对于“Sally feared Mary because she is strange”(萨丽害怕玛丽,因为她是陌生人)一句,大多数人认为代词是指玛丽。人们为何会如此认定,无人知晓,反正大家很快就会作出这样的判断。
    2007年,荷兰阿姆斯特丹大学心理语言学家约斯•范伯克姆(Jos van Berkum)和同事让受试者看一些句子,同时观察他们的脑电波变化情况。这些句子有的符合人们的预期模式,如“Sally frightened John because she is strange”(萨丽吓着了约翰,因为她是陌生人),有的则与一般预期冲突,如“Sally frightened John because he is strange”(萨丽吓着了约翰,因为他是陌生人)。脑电图揭示,当代词的使用与句子语境不般配时(比如在上句中用了“他”,而不是“她”),脑波中有迹象表明,大脑对此又下了一番功夫进行处理。
 
( 编辑:admin)
    美闻网---美国生活资讯门户
    版权申明 | 关于我们 | 广告服务 | 联系我们
    ©2012-2014美闻网版权所有