当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
AI传奇第十一回 数据魔方
  • 2017/5/10 9:32:08
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】数据科学像一支魔杖,指向之处就会出现神奇;数据像一只魔方,在数据科学家手里玩出绚烂多彩的万千花样。

      数据科学像一支魔杖,指向之处就会出现神奇;数据像一只魔方,在数据科学家手里玩出绚烂多彩的万千花样。


AI眼中历史与未来

      历史研究,一直是历史学家的专属花园。现在,AI科学家闯了进来。英国布里斯托大学科学家内罗·克里斯蒂亚尼尼(Nello Cristianini)与历史学家合作,用AI的数据挖掘技术,从旧报纸堆发现了可能比历史书更准确的英国现代史。

      没有一位历史学家能够阅读跨越一个多世纪英国历史的数千万份报纸,而AI可以。它积累了1800年至1950年间的3500万份英国地区新闻报道数据(占该时期英国地区报刊总量的14%),分析了286亿个词汇。不妨对比一下:成年人平均阅读速度大约为每分钟300字,按这样的速度,一个人如果一刻也不休息地昼夜连续阅读,需要180年来完成上述阅读;而AI用了大约8周。然后,它给出了自己独到的分析,让人们重新认识19世纪到20世纪上半叶150年的英国历史,发现了历史学家用传统方法不能找到的历史事件。

      例如,技术兴起这样的不太明显的历史进程,历史学家往往难以确定,AI则可以肯定判断。电力什么时候超越了蒸汽?1898年。因为在这一年,电在新闻中出现的频率开始超过蒸汽,电取代了蒸汽。又如,历史书都记载,火车时代开始于19世纪40年代,那时英国开始发展国家铁路系统。但AI从新闻报道数据中准确地进一步分析出,火车实际上要在半个多世纪后才变得比马车更重要。

      这是AI眼中的英国历史,数据分析穿透历史迷雾,在纷乱复杂的历史事件和记录中理清头绪,发现了历史学家难以发现的历史现象。

      数据科学不但能穿透历史看到过去,也能高屋建瓴,远望未来。我们在本专栏第一回看到的连续四次正确预测美国大选结果的MogAI智能系统,依靠的仍然是数据分析。而2009年H1N1甲型流感爆发前几周,Google通过对人们网上搜索记录的分析,作出了比疾控中心更及时的疫情预测,准确性则与官方数据相差无几。这也是数据分析预测的结果。

      这些故事,还只是数据应用案例的九牛一毛。今天,数据技术广泛应用于大至政治、军事、经济、教育、科研、医疗、金融,小至企业市场销售、个人健康管理等一切领域。随着AI应用的深入,数据在一切领域都在扮演不可或缺的重要角色

 

造就神奇的数据科学

      数据看起来平淡无奇。声音、图像、文本、数字……自然界和人类社会的一切信息,都可以看成数据。数据虽然无处不在,普通平凡,但是在AI时代,它已成为虚拟世界的基础和中心。曾经的经典说法是,真实世界(物质世界)的基础是原子,虚拟世界(数字世界)的基础是比特(bit,位)。而今天,可以更精确地说,虚拟世界的基础是数据,bit和byte(字节),不过是数据的计量单位。虚拟世界是数字世界,更是数据世界。

      数据其实一直就存在,造就神奇的,是数据科学,有了数据科学,数据就变得不平凡。

      数据科学(Data Science) 是一门年轻但发展非常迅猛的学科。数据、数据库、数据分析、数据处理这些概念很早就出现了,但直到1996年,在国际分类协会联盟(IFCS)在日本神户举行的双年会上,数据科学这个术语才首次出现在会议文件的标题中。这一年,被看作是数据科学诞生之年。之后,在统计等学科领域里从事数据工作的人开始被改称为数据科学家,数据科学快速发展。

      简单说,数据科学是研究从数据中获取知识的科学理论和方法,目标是从数据中提取出有价值的信息。数据科学是融合统计学、机器学习、高性能计算、数据挖掘、数据仓库、数据可视化等多领域中理论和技术的一门AI新兴学科。数据库大师、1998年图灵奖得主吉姆·格雷(Jim Gray)把数据喻为科学的“第四范式”,与经验、理论、计算相提并论,断言未来任何领域的科学问题都将由数据驱动解决。他2007年意外海难逝世,但对数据和数据科学重要性的预言,在今天正在变为现实。

      虽然数据如此重要,也一直得到广泛应用,但数据和数据科学成为公众关注热点,还是要等到2011年——在这一年,大数据(Big Data)热潮掀起。5月,权威咨询公司麦肯锡全球研究院发表了一份重要报告《大数据:创新、竞争力和生产力的下一个新领域》。这是专业机构第一次全面介绍和展望大数据。报告指出,大数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。

      紧接着,在2012年1月的达沃斯论坛上,大数据成了主题之一。会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产,就像货币或黄金一样。

      同年3月,奥巴马政府发布了《大数据研究和发展倡议》,标志着大数据已经具有重要的时代特征。奥巴马政府还将数据定义为 “未来的新石油”,甚至还把对数据的占有和控制,提升到国家数字主权的高度。

      数据热潮的掀起,有一个深刻的背景,那就是,人类社会的数据积累量,已经达到非常惊人的程度,大规模和深度的数据应用,已经成为必需和可能。

本文出自2017-05-08出版的《电脑报》2017年第18期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖