当前位置:首页 > 新闻资讯 > IT业界 > 新闻
第五回 机器在聆听
  • 2017/3/14 11:01:12
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】传说有点悲凉,却反映人类一直存在的美好梦想。重建巴别塔,也成了人类语言沟通和共识达成的象征和代名词。现在,AI让人类的梦想一步步走向实现。

剑桥语音的黄金十年

      1984年,美国国家标准及技术研究所(NIST)和DARPA决定出资开展语音识别评测标准的研究,希望能科学评估各种语音识别系统的性能。这件事影响了语音识别历史。

      德州仪器公司(TI)、麻省理工学院(MIT)和SRI合作构建了第一个声学-音素连续语音语料库,并制定了数据采集标准,成为世界第一个语音评测平台。这一被称为TIMIT的数据库应用至今,语音识别研究者们有了评测算法的标准数据集。NIST举办的语音识别评测全球竞赛由此开始。

      语音识别所研究的数据类型历经几次升级,由最早的孤立词语音发展到自然连续语音。然后,选取朗读“华尔街杂志”(Wall Street Journal)的语音录成标准数据库。这个数据集的词汇量大约为5000到20 000, “大词汇连续语音识别”就始于此。上世纪90年代中期以后,广播新闻这样自发产生的连续语音、电话对话语音、丰富的语音文本、多语种语音等等也不断加入评测,NIST大赛越来越具有挑战性。

    大赛1988年开始,1992年扩大到美国之外,成为全球大赛,剑桥大学等非美国机构,在那一年加入。1993年,剑桥大学夺取冠军。一战成名,剑桥语音成为全球语音识别界关注的焦点。

      从1989年起,剑桥大学工程系机器智能实验室研究组就在史蒂夫·杨(Steve Young)教授的主持下开发 “隐马尔可夫模型工具包”(Hidden markov model Tool Kit, HTK)。HTK软件包不是简单的语音识别系统,而是完整的研究平台。在这平台上,研究者可以方便地试验各种新式算法,搭建不同的语音识别系统。这样,HTK很快就成为了语音识别研究事实上的标准。而拥有平台的剑桥语音研究人员,近水楼台先得月。

      于是,剑桥大学语音识别研究在大赛中连续十年取得优异成绩,许多影响深远的语音识别技术陆续在剑桥产生,并成为后来主流经典算法,这些成就轰动了全世界,被称为剑桥语音的黄金十年。

踏上商业化征程

      语音识别也逐渐开始商业化。1995年,IBM开发出离散词汇听写软件,也就是后来的语音识别软件Via Voice的前身。IBM当时将语音识别率从70%提升到90%,同时识别词库的规模从几百单词上升到几万个,语音识别从实验室走向实际应用。1997年,IBM推出了世界上第一个中文连续语音识别产品——Via Voice 4.0。该软件成功突破连续语音、大词汇量、非特定人的难关,据称解决了汉语同音字多、有声调、口音复杂等问题,可以帮助人们从键盘输入中解脱出来,IBM认为这是汉字输入的重要里程碑。

      不过,中文版的Via Voice4.0刚推出,我就满怀希望地试用了这个软件,但感到很失望,远没有达到解放双手的愿望,使人感到实用的语音识别系统还在路上。当时,我并不知道,语音识别的大师们在此几年前已经纷纷离开了IBM。

      剑桥大学的HTK语音开发平台也开始商业化,被微软收购。后来微软重新把HTK核心技术的使用权送还给剑桥大学。

      语音识别专家、数据魔方智慧科技CEO张晴晴博士这样描述当时的情况:“深度学习之前,做语音识别门槛是很高的。语音识别涉及到信号处理、语音\语言建模、发音字典、解码、后处理等等,每个模块都足够一个博士研究好几年。”

      在这样的研究环境下,掌握核心算法的公司很容易形成技术垄断。1992年创立的美国语音巨头Nuance,2005年在纳斯达克上市,一直深耕统计方法的语音技术,拥有大量的核心算法和数千件专利。苹果Siri采用了他们的语音技术后,Nuance公司在语音识别方面的技术实力也浮出水面。手机、家电、汽车等人机语音交互产品中,大量嵌入他们的语音识别系统,客户都是苹果、三星这样的知名厂商。

      Nuance擅长于利用自己在语音处理方面的知识产权打击竞争对手。用诉讼手段削弱具有创新力的对手,然后低价并购或让其破产。很长时间内,Nuance拥有绝对话语权,整个语音行业生态是——这棵大树下寸草不生。

本文出自2017-03-13出版的《电脑报》2017年第10期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖