繁体版 | 简体版 | 手机版
您当前的位置:Home> 科技前沿> 最新发现> 科技> > 正文
语音机器人的语言困局(四) 统计模式
时间:2013-11-29 15:36 来源:美国资讯网
字号:【

翻译天地 大有文章
 
    科学家为其创建的语言机输入巨量的文本,称为语料库。谷歌翻译就是靠已经翻译成多种语言的大量联合国文件充实起来的,它有助于澄清歧义。
    由于单词意义具有千变万化的微妙差别,科学家需要找到恰当的方法来帮助机器人改进预测方式。许多学者求助于语言的统计处理,就是把不计其数的素材塞进他们的计算机中,然后进行统计分析。首先,他们把名为语料库的巨量文本集合——有时超过十亿单词——灌入机器中。然后,机器把这些文本分解成由 n个连续单词构成的无数段,每段称作一个n元。机器对它吞进的所有n元进行分析后,就知道了哪些单词一般会同什么单词搭配。例如,机器人最终会弄清楚,“tall man”(高个子男人)这个短语在英语中相当常见(在网上搜索,会出现大量相关词条),而“man tall”则相对少见。类似地,机器也可以学到如下知识:如果句子中的“bank”前面有“swam”,那么它的意思多半是“河岸”。701翻译机实际上就是在对n元(更确切地说是由两个单词构成的二元短语)进行分析。
    统计模式的优点在于,程序员不需要制定诸如“‘general’要在‘major’前面”之类的具体规则,甚至也不需要制定“形容词要在名词前面”之类的抽象规则,统计系统只需要弄清哪些词在哪些词的前面。更复杂的方案则可能也会跟踪词类信息,以便让语言机器知道,当“check”用作名词而非动词时,它很可能与“银行”有关。
    研究也表明,统计学习——即通过语境来识别语言模式——可能有助于人们学习语言,因而这种方法格外受机器人工程师的青睐。美国罗切斯特大学心理学家詹尼•萨福兰(Jenny Saffran)、理查德•阿斯林(Richard Aslin)和艾丽莎•纽波特(Elissa Newport)1996年的一项研究显示,甚至连8个月大的婴儿也能领会三元概率,即三联词汇或音节中各单词或音节依次出现的可能性。研究人员让婴儿倾听一串无意义的音节,如bidakupadotigolabi。其中bidaku、padoti和golabi这几个三元词出现得非常频繁,而其他三元词(包括dakupa)的出现次数少得多。听了这些无意义的音节串两分钟之后,婴儿们就能区分常见和不常见的三元词(对于不常见的三元词他们会听得更久一些,就像是听到新的音节一样)。几位科学家把这种能力解读为,儿童可能是通过这一方式来分清他们听到的单词。类似地,2010年,美国圣路易斯大学心理学家克里斯托弗•康维(Christopher Conway)领导的一个团队发现,擅长统计学习的人也擅长于在嘈杂的环境下听懂谈话。
    虽然n元机器并非科学家正在尝试的唯一一种语言系统,但工程师对这类系统情有独钟,因为现在海量语料库一抓一大把,要弄到一个易如反掌。比如,谷歌就发布了一个网上语料库,单词量在万亿以上。但为了让语料库分清单词的意义和代词指代的种种复杂微妙之处,必须对每个句子加以标注,也就是标出每个单词的意思或词类,但现在大多数基本语料库并未做这项工作。对词义作了标注的最大语料库是SemCor(SemCor是semantic correlation即语义关联的缩写),是由普林斯顿大学创建,包含36万个单词。从标注这些单词所需的工作量来看,这是一个非常大的语料库,但按语音工程师的需要来衡量,它又太小了。
    看看谷歌推出的两种n元系统,我们就可以领略到n元机由此而来的长处与软肋。其中一个系统是谷歌翻译。谷歌向这个统计型翻译工具灌进了大量已经翻译成多种语言的文本(谷歌翻译最初的资料库的内容,主要就是用多种语言发布的联合国文件)。由于某种语言中的一个同音多义字,在另一种语言中通常要用两个词来表示[比如英语中‘bank’的两个意思,在西班牙语中就分别用orilla(岸边)和banco(银行)来表示],因此用于训练统计型翻译机器人的双语语料库就可以充当有词义标注的语料库。翻译机可以学会区分英语中含有“bank”,而西班牙语中含有“orilla”的句子(往往还有 “swim”这个词),以及英语中含有“bank”,而西班牙语中含有“banco”的句子(往往还有“cashed”和“check”之类词汇)。
    谷歌最近推出了一款名为谷歌抄写(Google Scribe)的工具,其实就是一种n元机,用于句子的书写——它可以在你打字时实时提示下一个要输入的单词。比如当你输入“major”时,机器便帮你联想到“role”、“cities”、“and”、“role in”、“problem”、“histocompatibility complex”、“league”等。这些全是与major搭配的常见词汇[连“major histocompatibility complex”(主要组织相容性复合体,生物学上的专业词汇)都属于常见的组合,在谷歌中的搜索次数超过百万次]。
    联想建议是如此的多,凸显了现今n元机的一个重大局限性。由于n元机跟踪的上下文仅有几个单词,因此,如果相关单词隔得太远,机器往往会乱了方寸。比如输入“He swam to the bank”(他游向岸边),谷歌翻译会返回正确的西班牙语译文“élnadó hasta la orilla”,但若输入“He swam to the nearest bank”(他游向最近的岸边),则谷歌翻译会给你“élnadó hasta el bancomáscercano”,意为“He swam to the nearest fnancial institution”(他游向最近的银行)。双语语料库在应对多义词和代词时也显得很不给力。某种语言中的许多多义词在其他语言中也是多义词。
    同样,谷歌抄写和其他简单的n元机既无法搞定新词,也不能生成有用的句子。即便是幼儿也会用新词造句,但你在谷歌翻译中输入新造的词 “wug”后,它不会给你任何提示。而且,由于它只能领会很短的短语的统计规律,因此对于由它生成的句子,如果逐个单词来看,你知道每个单词是什么意思,但全部连起来就成了不知所云的东拉西扯。例如,向谷歌抄写输入“Google”,然后依次在每个单词之后输入它提示的首个联想词,则最终得到这样一句:“Google Scholar search results on terms that are relevant to the topic of the Large Hadron Collider at the European level and the other is a more detailed description of the invention.”这样的n元系统生成的句子,其句首与句尾多半是南辕北辙,很难对得上号。
 
 
 
 
( 编辑:燕婷)
    美闻网---美国生活资讯门户
    版权申明 | 关于我们 | 广告服务 | 联系我们
    ©2012-2014美闻网版权所有