当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
第七回 重建巴别塔
  • 2017/3/28 10:45:45
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】2017年3月全国“两会”安徽团,讯飞公司向李克强总理演示了 “晓译”多语种翻译机,实时把汉语翻译成英语、维吾尔语。中国在机器翻译上表现出色。

@陈宗周

      2017年3月全国“两会”安徽团,讯飞公司向李克强总理演示了 “晓译”多语种翻译机,实时把汉语翻译成英语、维吾尔语。中国在机器翻译上表现出色。

机器翻译热潮

      2016年11月的一天,东京大学教授、人机交互专家历本纯一(Jun Rekimoto),在社交网络上发现一个消息,谷歌翻译有了巨大提升。他亲自访问了谷歌翻译的页面开始体验,他被震惊了。

      他对比了两位日本翻译家所翻译的《了不起的盖茨比》中几句话与谷歌翻译出结果。他认为,谷歌的翻译在日语上非常流畅,更加易懂。

      他随后又在谷歌翻译上输入美国作家海明威作品的日文版,翻译为英文,结果发现机器翻译与海明威英文原著有着惊人的相似度。

      上面的两个场景都和机器翻译有关,讯飞演示的叫语音翻译,日本专家使用的叫文本翻译,而这两种翻译,核心问题都在于自然语言理解。

      机器翻译(Mchine Translation,MT),又称自动翻译,是用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译是AI中的明星技术,因为它是实现不同民族不同语言人群无障碍交流的最有力助手。圆满解决机器翻译难题,重建巴别塔的梦想也就实现了。

      机器翻译这个想法的出现,与军事有关。1946 年,第一台计算机 ENIAC 诞生后不久,洛克菲勒基金会的美国科学家瓦伦·威弗(Warren Weaver)等人在思考计算机未来应用时,想到了第二次世界大战期间,图灵用机器破译密码取得的巨大成功。他们认为,语言翻译与破译密码相似,都是把一种符号转换成另一种符号,同样可以用机器来完成。沿着这样的思路,1949年,威弗发表《翻译备忘录》,正式提出机器翻译的思想。

 

世界上第一台计算机ENIAC

      机器翻译的想法提出后立即受到重视,美苏两国当时正值冷战,俄文情报资料的翻译,需求量很大。1954年,美国乔治城大学和IBM共建的实验室搞出第一台机器翻译演示系统。这个系统,是把俄语翻成英文。系统容纳250个单词,遵循六条语法规则,只可以翻译49个仔细挑选的句子。但这仍然是个了不起的成就,记者这样兴奋地报道:今天,电子大脑首次将俄语译成英语。美国国防机构和计算机科学家乐观期望,机器翻译在五年之内实现。

      机器翻译也吸引了苏联、日本和欧洲国家的研究兴趣。一时间,各国政府纷纷拨款,全球机器翻译热潮兴起。

 

统计翻译成为主角

      好景不长,机器翻译研究进展缓慢,开始受到质疑。1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC),进行为期两年的调研和测试。1966年11月,该委员会公布了题为《语言与机器》的阿尔帕克(ALPAC)报告,全面否定了机器翻译的可行性,建议停止经费支持。

      机器翻译研究进展缓慢是因为自然语言理解当时很难取得实质性突破。自然语言理解(Natural Language Understanding,NLU),是解决对语音信息和文本信息的理解问题的重要AI学科。通俗说,是要解决要听得懂和看得懂问题。语音翻译和文本翻译共同的难题都是自然语言理解。这是一个终极目标,所以许多研究者喜欢用另外一个词,即自然语言处理(Natural Language Processing, NLP)来描述这一学科,强调过程而不是目的。

      最初的研究者,从方法上,希望迅速找到语言规则,从而理解自然语言,解决机器翻译难题。但语言的规则太复杂。以文法规则来说,有人计算过,如果仅覆盖20%的真实语句,文法规则至少需要数万条。而如果要覆盖50%的真实语句,以后每增加一个新句子,就要新增数条文法规则。由于语言是发展和流动的,真实句子实际上变化无穷,文法规则难以穷尽。

      再从计算复杂度考虑,图灵奖得主高德納(Donald Ervin Knuth)从理论上指出了文法与计算复杂度的关系。如果上下文无关,计算复杂度是语句长度(即有多少单词)的二次方;而如果上下文有关,计算复杂度是语句长度的六次方。单单分析一个有二三十个单词的句子的文法,就是用今天的高性能计算机,也要计算几分钟。

      当然,上述分析是在非限制性的语言应用环境中得出的结论。然而,不同文化、不同学科、不同情景下应用语言都有各自的特征。因此,在限制语言环境中,问题要简化很多。于是基于语言规则的机器翻译仍在努力前行。而另一种方法,即基于统计的机器翻译开始崭露头角。

      上世纪70年代IBM沃森实验室的贾里尼克提出了统计语音识别的理论框架,用两个隐马尔可夫模型——声学模型和语言模型来清楚概括语音识别。这个框架对语音和语言处理都有着深远影响。从此,自然语言处理开始走上统计方法之路。

      统计语言学开创人贾里尼克有一句名言:我每开除一个语言学家,语音识别的正确率就提高1%。这句极端的话,说明他对语言规则的无视。

      统计翻译用大量的双语文本,建立两种语言的平行语料库。翻译时对单词通过语料库进行匹配(后来又发展到对词组、短语乃至整个句子进行匹配),根据匹配概率,来评判和选择翻译结果。

      统计翻译另外一种方法是建立双语对照的实例库,这是一个更庞大的语料库。翻译时根据实例进行匹配。
      统计翻译避开语法规则,是威弗提出《翻译备忘录》时的原始想法。但统计翻译需要大规模的语料库,这在当时并不容易做到。所以,自然语言处理从基于规则转向基于统计经历了很长的过程。基于规则的自然语言处理,在采用新技术以后,仍在发挥作用。不过,随着互联网的普及,大规模语料库逐步建成,统计翻译最终成为主角。

Systran沉浮录

      机器翻译行业最早的开发者和软件提供商Systran是老一代基于规则的机器翻译技术的商业化代表,于1968由彼得·托马(Peter Toma)创办。托马当时在美国乔治城大学机器翻译项目组工作,之后他以大学研发小组为班底,创办Systran机器翻译公司。在ALPAC报告后,政府资助经费锐减,Systran成为少数几个活下来的机器翻译公司之一。1986年,Systran卖给法国一个家族,后来在法国上市;2014年,又卖给一家韩国公司。

      这家几十人的小公司,一直靠技术从上世纪60年代走到今天。发展到支持多语种互译,产品内嵌在雅虎、谷歌、美国在线等公司的翻译系统中。Systran公司年销售额只有1000多万美元,但在100亿美元的机器翻译市场中,却一度占了内嵌翻译引擎很大的份额。“我们公司如此之小,可我们又是最大的。”Systran 公司董事长自豪地说。

      关键的一战终于在2005年打响。谷歌公司虽然采用了Systran的规则翻译技术,但一直想充分利用自己的大语料库,从2002年起,谷歌从南加州大学挖来统计语言处理天才弗朗兹·奥克 (Franz Och), 组建机器翻译团队。2005年夏天,由奥克设计、尚处于实验阶段的Google翻译系统,经过100万本图书的语料训练后初次亮相,在NIST(美国国家标准与技术研究院) 组织的机器翻译竞赛中将100 篇新闻文稿, 从阿拉伯语或汉语译成英语, 谷歌系统在所有类别上全胜,击败包括IBM在内的全部对手。

      这场竞赛,被看成是统计机器翻译正式登基的标志。

      2007年10月,谷歌公司终止与Systran合作,采用自己的统计机器翻译系统。2010年,Systran转向,采用规则和统计混合机器翻译系统,后来又引入深度神经网络技术。Systran的变化,说明基于统计的深度神经网络自然语言处理和翻译系统,已经成为主流。但同时,统计翻译也开始重视语法、句法和语义的一些细节,用来完善机器翻译系统。

 

科技巨头的竞赛

      机器翻译高歌猛进,不断向各个应用纵深发展,也成为巨头科技公司AI水平的一个标志。

      谷歌翻译是最有名的机器翻译产品,2006年上线以来,已能支持 103 种语言,每天处理1800 万次翻译,共 1400亿单词,一直作为业界的标杆。2016年9月28日,谷歌发布新的神经机器翻译系统GNMT。这套系统克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。据说,在新技术使用后,翻译错误可减少 60%及以上。谷歌新翻译系统在支持困难的中英文翻译上,有了很大的提升。

      微软一直有规模可观的自然语言处理团队,团队最初聚焦于基于规则翻译,但现在已采用深度神经网络统计翻译。2014年12月,微软的Skype翻译器推出了预览版,当时只支持英文和西班牙文在通话中实时翻译,但已经引起轰动。2015年4月,已经能支持中文普通话。2016年12 月,微软发布了世界上第一个万能翻译器。除了支持语音识别、拍照识别、直接输入等翻译功能外,它甚至可以实现多达 100 人之间实时翻译交谈,是一个翻译神器。

      中国在机器翻译上表现也非常出色。

      科大讯飞在语音合成、语音识别和语义理解方面一直走在世界前列,2014和2015年两次在国际汉英翻译大赛IWSLT中获得全球第一。2016国际知识图谱构建大赛上(KBP)上,科大讯飞首次参赛就包揽了赛事核心任务的冠亚军,充分展示了讯飞在自然语言理解、知识推理等领域国际顶尖的技术实力。讯飞的多语种实时翻译技术处于全球先进行列,同样有自己的互译神器——晓译多语种翻译机。

 

晓译多语种翻译机

      拥有大规模语料库的百度,对机器翻译当然不甘落后。20117月,百度翻译上线,到目前已经支持28个语种,同时在PC和移动端应用。20155月,百度翻译正式上线神经网络机器翻译NMT)系统,成为全球第一个实用NMT比谷歌还要早一年多

      百度翻译也有自己的特色,独创实物翻译、涂抹翻译、文言文翻译等功能,能随时随地、便捷的满足中文用户的翻译需求。

      无独有偶,奇点论鼓吹者、美国未来学家雷·库兹韦尔 (Ray  Kurzweil) 在接受《赫芬顿邮报》采访时也预言:到2029年,机译的译文质量将达到人工翻译的水准。

      自然语言处理和机器翻译已经取得了辉煌的成就,重建巴别塔,让全世界不同民族说不同语言的人,实现无障碍交流的日子,不太遥远了。

 
本文出自2017-03-27出版的《电脑报》2017年第12期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖