第八回第二双眼睛

2017/4/6 9:37:55
类型：原创
来源：电脑报
报纸编辑：电脑报
作者：

【电脑报在线】2017年央视315晚会上，一段攻破人脸识别过程的演示引发争议。AI专家集体进行反打假。打假与反打假，余波未平。但这段节目，使人脸识别这样的AI新技术，得到前所未有的关注与普及。

@陈宗周

2017年央视315晚会上，一段攻破人脸识别过程的演示引发争议。AI专家集体进行反打假。打假与反打假，余波未平。但这段节目，使人脸识别这样的AI新技术，得到前所未有的关注与普及。

计算机视觉前史

人脸识别，是计算机图像识别的重要应用。而图像识别，又是计算机视觉领域中的重要技术。

计算机视觉（Computer Vision，CV）是AI中的一门交叉学科，主要解决让机器看的问题。人类认识世界，有耳朵和眼睛这两个重要感觉器官。计算机语音技术让人耳聪，计算机视觉技术使人眼明。计算机视觉研究如何用摄像机等视觉传感装置代替人眼对物体进行识别、跟踪和测量，并由计算机处理这些视觉信息，从而达到像人眼一样对事物进行感知和认知。简单说来，计算机视觉是看的科学。计算机视觉可以看成人类的第二双眼睛。

人类获取的外界信息， 80%来自视觉，我们得到的所有信息中，视觉信息最丰富而复杂。经过长久进化的生理构造，使我们很容易能够看清楚并理解身边的场景，但是要让计算机处理这些视觉信息，却非常困难。所以，与AI中一些学科相比，计算机视觉是起步比较晚的新兴学科。

20世纪50年代，计算机开始用来进行一些二维图像的分析和识别，如光学字符、显微图片、航空图片等，这类工作，被划入模式识别。而模式识别本身也很年轻，要到60年代才成为独立学科。至今，计算机视觉和模式识别仍然是联系得很紧密的学科。

也是在60年代， MIT的罗伯茨（Roberts）才开始用计算机程序分析三角体、立方体等简单物体，虽然只是研究辨识度很高的简单白色积木玩具，但却使计算机视觉进入了三维空间，有人把计算机视觉的这一时期称为积木时代。

到了20世纪70年代中期， MIT的AI实验室，第一次开设了“机器视觉”这门课程，由颇有名气的伯特霍尔德·霍恩（Berthold Horn）教授授课。定名为机器视觉非常自然，因为计算机视觉发展一直受到机器人学科推动，机器视觉始终是机器人的关键技术之一。

学科奠基人：戴维·马尔

当时， MIT的AI实验室主任是明斯基，由于他的声望，吸引了国际上许多知名学者参与计算机视觉的研究工作，马尔就是其中一位，他在这里建立了计算视觉的理论框架。

戴维·马尔（David Marr）1972年在剑桥大学脑科学专业博士毕业后， 1973年受明斯基邀请来MITAI实验室做访问学者。1980年在这里成为正教授，不久因白血病去世，年仅35岁。他在这短暂时间内奠定了今天红遍全球的计算机视觉学科基础。

1977年，马尔第一次系统描述了计算视觉（Computational Vision）这个领域，其中包含了计算机视觉（Computer Vision）和计算神经学（Computational Neuroscience）两个分支学科，他的工作对认知科学（Cognitive Science）也产生了深远影响。

马尔思想的精华，都汇聚进一本书里。得知来日无多，他争分夺秒整理。但仍没能亲眼看见自己的著作出版。这本名为《视觉：从计算的视角研究人的视觉信息表达与处理》（Vision：A Computational Investigation into the HumanRepresentation and Processing of Visual Information），在他去世后两年，1982年由学生和同事修订出版。

加州大学洛杉矶分校著名学者、统计和计算机教授朱松纯教授这样评价马尔：基本上，他定义了这个学科的格局。

马尔对计算机视觉的贡献是开创性的。他提出了解决视觉问题的三个层次——计算（表达）、算法、实现；理清了视觉到底要计算（表达）什么，并给出了纹理、立体视觉、运动分析、表面形状、光照、深度等一系列表达。他还把计算机视觉处理描述为三个阶段，第一阶段将输入原始图像抽取出角点、边缘、纹理、线条、边界等基本特征，特征的集合称为基元图，第二阶段由输入图像和基元图恢复场景可见部分的深度、轮廓等，称为二维半图；第三阶段由输入图像、基元图、二维半图，恢复和识别三维物体。

这一理论推进了计算机视觉科学的发展，为纪念他的贡献，从1987年第一届国际计算机视觉大会（ICCV ）开始，连续20年以马尔的名字来命名最佳论文奖，是计算机视觉学科唯一的奖项和最高的荣誉。

马尔主导了计算机视觉多年，直到现在，还有学者不断研究马尔的著作。他的书 2010年再版，在亚马逊仍然是畅销书。

成长之路

进入20世纪80年代，光电传感器等硬件取得了很大突破。1969年由贝尔实验室发明的CCD（电荷耦合器件）传感器，之后应用于摄像机等设备。上世纪90年代，CMOS(互补金属氧化物半导体) 光电传感器登场，并大量应用于手机、照相机、摄像机、摄像头等。DSP(数字信号处理) 芯片出现，则提升了图像处理质量和速度。同一时期，互联网热潮兴起，尤其是图片和视频网站的发展带来了两方面的影响，一是计算机视觉技术必须有所突破，才能满足需求；二是图像大数据的积累，也为计算机视觉发展打下深厚基础。

在应用方面，20世纪90年代之后，计算机视觉技术已经开始广泛应用于工业制造过程监控、机器人、安全防护等广阔领域。

2001年，有两个轰动性的事件促进了计算机视觉的发展。在当年的国际计算机视觉大会（ICCV）上，Paul Viola 和 Michael Jones 发表了实时图像识别论文，并把摄像头对准大家，图像中现场所有人的脸都被圈出来。这使大家感到图像识别第一次有了实际应用成果。另一个爆炸性事件则是911。911 后美国政府为了反恐，要求在各种场合普遍使用摄像头视频监控系统。计算机视觉技术得到大量经费支持。

20世纪的第二个十年，极大影响计算机视觉的明星AI技术登场，这就是深度学习。在2012年的ImageNet图像识别大赛上，欣顿的学生采用深度学习技术，获得了颠覆性的胜利。从那以后，深度学习深刻影响了AI的几乎所有领域，计算机视觉，是受到深度学习最大影响的学科之一。

与每个人工作生活密切相关的人脸识别，是计算机视觉的重要应用，越来越广泛地用在安全监控、医疗健康、银行保险、电子商务等领域。所以，央视315晚会从保护消费者利益出发，选择对人脸识别“打假”，有一定道理。

攻击人脸识别的技术并不新鲜，2016年，一篇由德国埃尔朗根-纽伦堡大学、马克斯•普朗克计算机科学研究所、斯坦福大学3家学术机构5名科学家的论文《实时人脸捕捉和再扮演—— Face2Face》就曾引起热议，结论是：通过密集光度一致性技术，实现跟踪源和目标视频中脸部表情的实时转换，由于间隔的时间很短，使复制面部表情成为可能。

由于论文指出了在特殊条件下，攻击人脸识别系统存在可能性，现在对安全要求极高的应用中，人脸识别系统同时采用多重手段进行交叉验证。AI专家们想让公众知道这一点，他们群体发声，还想让大家了解人脸识别的技术含量。

人脸识别属于人体生物特征识别，与其它生物特征如指纹、虹膜等一样，与生俱来。但与指纹、虹膜识别相比，由于人脸会随着年龄而变化，人脸识别难度要高很多，必须集成应用众多的AI技术。所以，人脸识别是图像识别技术成熟的标志，甚至被认为是弱人工智能向强人工智能转化的标志之一。

中国力量

与计算机语音一样，计算机视觉也是华人科学家云集的AI研究领域。在他们的共同努力下，中国与此相关的学术研究和产业发展成就引人注目。

讯飞、百度、阿里等中国AI领头公司正在紧追微软、谷歌、脸书等国外同行，一批新兴的计算机视觉创业公司同时在中国涌现，产生以“一桶筐汤”（依图、格灵深瞳、旷视、商汤）为代表的创业公司群体。这些公司的国际竞争力，总部在西南重庆地区的中科云从科技CEO周曦如此描述: 国产人脸识别在实际应用中已远超德日厂商。像周曦这样有国外留学背景并在全球顶尖AI机构工作过的创业者，已经成为计算机视觉行业和其他AI领域创业公司的主力。

国家发改委公布2017年重点支持AI项目，云丛与百度、腾讯、讯飞等民营高科技企业同时出现在名单中，成为AI“ 国家队”。中国计算机视觉产业的未来，前景可期。

计算机视觉在迅猛发展，人类的第二双眼睛，正在被我们擦亮。

小明AI两会

计算机视觉技术应用方面，中国也有许多创新。2017年3月《光明日报》客户端上线了“小明AI两会”功能，首次将图像交互等AI技术应用于两会报道。通过两会代表委员的照片，“小明”就能识别出照片中的人物，并显示这名代表委员在履职期间关注的主要领域及报道。《光明日报》对计算机视觉技术的应用，是媒体行业的一种尝试，事实上，还有很多行业有待于用这项技术去开拓。如果说语音交互可以使万物互联，而图像交互也同样可以使万物识别、万物交互。甚至，计算机视觉和图像视频处理、VR、AR等技术结合，可以实现真实世界和虚拟世界的交互。

计算机视觉有了这些惊人的发展，但仍然在方兴未艾之中。2012年，谷歌公司的一篇论文在全球引起轰动，他们的谷歌大脑（Google Brain ）通过自己观看视频，认出了一只猫。

2010年，时任斯坦福大学副教授的吴恩达加入谷歌开发团队X实验室（XLab）。2011年，吴恩达建立了谷歌大脑项目，项目为分布式计算的大规模人工神经网络。吴恩达团队用了16000个GPU芯片，构建了有10亿突触的人工大脑，尽管与人类大脑突触数目还差几个数量级，但这已经是一个很庞大的深度学习神经网络系统。

谷歌大脑创始人吴恩达

谷歌大脑能不能在没有帮助的情况下自主识别呢？谷歌的研究小组在视频网站YouTube上找到数百万帧静态视频图片，这些图片没有任何标注。然后，让谷歌大脑自己去看这些视频图片。谷歌大脑神经网络的感觉中枢开始运转计算，从众多图片得来的信息中分离出了一个稳定的模型。最后，这一模型毫不犹豫地识别出猫的脸。识别猫脸前，谷歌大脑对猫的定义和知识一无所知。神经网络自己直接与现实世界交互并抓住了“猫”这一概念。研究者发现，猫的脸部阴影会激活谷歌大脑的人工神经元。

谷歌大脑能通过视频图片自主学习到猫这样的高级概念并能自动识别，是计算机视觉和AI历史上了不起的成就，这只特殊的猫，就成为著名的谷歌猫（Google Cat）。

谷歌猫这样的故事，打开憧憬计算机视觉未来的一扇窗口。随着AI技术突飞猛进的发展，计算机视觉这人类的第二双眼睛，正在被我们擦亮。