繁体版 | 简体版 | 手机版
您当前的位置:Home> 科技前沿> 最新发现> 科技> > 正文
语音机器人的语言困局(五)求助网友
时间:2013-04-23 11:14 来源:美国资讯网
字号:【

 
    改进n元机最简单的招数之一,就是让它们使用更长的句子。但说来容易做起来难。假设某种语言仅有一万个单词。为了把所有潜在的三元短语一网打尽,单词机得学习一万的三次方即万亿种组合。而要把每一个六词组合都收罗进来(其实,对这种任务来说六个单词仍然不够长),则得存储1024种组合,相当于十万亿EB的信息(一EB为十亿GB)。想想看,截至2009年,全球所有数字信息据估计也不过500EB而已。
    不过,即使有了巨量的词义标注语料库作靠山,聪明的“机器人学生”仍然还得学一些实用的功夫,说起话来才比较靠谱。以色列希伯来大学的哲学家耶霍舒亚•巴尔-希勒尔(Yehoshua Bar-Hillel)在1960年的一篇经典论文中指出,单靠上下文,永远也无法解释为什么人人皆知“the box was in the pen”(箱子放在栅栏里)中的“pen” 必定是指一块围起来的场地而非钢笔。人们作出这样的推断,并非根据上下文,而是根据他们的常识——箱子不可能塞进钢笔里。
    为了让机器人在填补数据空白的同时,也在现实的江湖里多磨练磨练,近来若干个依托网络的项目尝试求助于广大网友的力量。美国卡内基•梅隆大学以安东尼•托马西克(Anthony Tomasic)为首的一批计算机科学家将推出一个名为Jinx的网上游戏。游戏中,系统将向两位玩家显示包含在一个句子中的某个单词(例如“John cashed a check at the BANK” 中的“BANK”),并要求玩家尽快输入相关词汇。如果两个玩家输入同样的词,则可赢得点数。研究人员可以利用他们的判断来标注多义词的意义(尤其当玩家意见一致时),从而打造一个比SemCor更大的语料库。
    我自己做的网站“代词侦探”(Pronoun Sleuth ,网址gameswithwords.org/PronounSleuth)则是让自愿参加的网友看一些包含代词的句子,并判断其中代词是指哪位(例如 “Sally went to the store with Mary. She bought ice cream.”(萨丽同玛丽一起去商店。她买了冰淇淋)。对于某些句子,参与者的判断相当一致,但对于另外一些句子,意见则不那么统一。
    我们发现,要把一类句子同另一类句子区分开来,需要30~40位网友的意见。最终有500多位参与者对几个句子作出了判断。不久前,我和斯内德克递交的一份论文,收集了针对一千个句子的数据——机器人要想理顺代词用法的微妙差别,一千个句子仍嫌太少,但这已经是现有的针对这类句子的最大数据库了。
    2008年,英国埃塞克斯大学的计算机科学家创建了“短语侦探” (anawiki.essex.ac.uk/phrasedetectives),采取了一个较为传统的思路。“短语侦探”会向参与者出示一本书或一篇文章中的一段,当参与者遇到一个代词时,便须找出它指代的是哪个词。“短语侦探”也会询问参与者对其他指代性短语的判断。例如,实验人员想知道参与者是否会认出“Jane Austen wrote Pride and Prejudice. The book was very popular”(简•奥斯汀写了《傲慢与偏见》。该书非常受欢迎)这段话中,“the book”是指“Pride and Prejudice”。迄今,“短语侦探”的参与者们已经完成了对317份文档的判断。把这类项目所产生的数据综合起来,我们就能建立并检验相关理论,并在理论的指引下,最终打造出会使用代词的机器人。
    不过,什么时候能实现这个目标仍是一个有争议的问题,而且我们的预期也可能同以往一样完全不靠谱。虽然谷歌公司机器翻译团队的老大弗朗兹• 约瑟夫•奥克(Franz Joseph Och)对前路上的障碍心知肚明,但他不久前在接受《洛杉矶时报》采访时仍宣称,具有《星际旅行》中万能翻译机那种神奇功力(即讲即翻式的同步传译)的语音机器人有可能在“不太遥远的未来”诞生。不过,打造会说话的机器人的前提是深刻领悟语言的奥秘,而事实可能会证明,语言之难于捉摸,绝不逊于《星际旅行》中其他任何神奇的东西。
 
( 编辑:admin)
    美闻网---美国生活资讯门户
    版权申明 | 关于我们 | 广告服务 | 联系我们
    ©2012-2014美闻网版权所有