爱吧机器人网 » 专题 > 观点 > 正文

中科院专家张钹:过了2018,人工智能要飞了!

当前,人工智能是全球关注的焦点,我国政府也非常重视人工智能的发展。人工智能采用的是知识驱动和数据驱动两种方法,特别是大数据推动了人工智能的快速发展。未来人工智能要进一步产业化,一方面要选择合适的应用场景,另一方面还需加强基础研究带来技术突破。

本文摘选自交通运输部《智慧城市导刊》,作者张钹,中国科学院院院士、清华大学人工智能研究院院长。张钹院士是著名的计算机科学与技术专家,CCF终身成就奖获得者,并任俄罗斯自然科学院外籍院士,被业界视为我国人工智能泰斗。

当前,人工智能是全球关注的焦点。我国政府也非常重视人工智能的发展。10月31日中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。习近平总书记在主持学习时强调,人工智能是新一轮科技革命和产业变革的重要驱动力量。

加快发展新一代人工智能,是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。要深刻认识加快发展新一代人工智能的重大意义,加强领导,做好规划,明确任务,夯实基础,促进其同经济社会发展深度融合,推动我国新一代人工智能健康发展。


大数据推动了人工智能的发展

大家都知道,从本世纪开始,人工智能又重新掀起高潮,这中间很重要的原因就是大数据带动了人工智能的发展。

其中,有5个标志性事件,充分反映了大数据对人工智能的影响,即:1997年5月,IBM“深蓝”打败国际象棋世界冠军卡斯帕诺夫;2011年2月, IBM “沃森”在“危险边缘”智力竞赛中打败全美前冠军Ken Jennings 和Brad Rutter;2015年12月17日,在ImageNet 图像库上,微软图像识别系统的误识率低于人类。人类是5.1%, 而机器只有4.94%;2015年12月20日,百度宣布Deep Speech中文语音单句的误识率低于人类。人类是4.0%, 机器是3.7% ;2016年3月,AlphaGo打败世界围棋冠军李世石。

人工智能采用的第一种办法是知识驱动方法。

在人工智能发展的早期,这方面的工作做得并不好。为什么到了20世纪以后,能够做得更好呢?其中一个重要的原因就是互联网的发展。我们可以从互联网上获得大量的大众知识,“沃森”之所以战胜人类,原因就在于此。“沃森”以压倒性优势取胜,主要是基于它获得的大量知识,共2亿页知识,4TB 级存储,包括词典、百科全书、主题词表、新闻专线文章、文学作品,以及全部WIKI百科的内容,它可以整合不同数据源的信息。这说明,在限定的环境和范围下,在人机对话上,机器可以战胜人类。

第二种办法是数据驱动方法。

就是现在常常说的深度学习或者人工神经网络,一般用来处理图像和语音。因为图像和语音很难用语言表达,所以我们用的办法,就是用样本对机器进行训练。比如图像识别,在给定的图像和给定的状况下,机器的识别率可以超过人类;语音也是同样的办法,如果我们给出足够的语音库,在所给的语音库下,机器可以在单句的识别率方面超过人类。也就是说,用这种机器学习的方法,如果我们掌握了充分的样本,机器就可以做得像人一样好,甚至可以超过人类。

用一个例子说明数据的重要性:在2015年之前,人类做出的围棋程序最高只能达到业余五段,但是国际象棋程序在1997年就打败了人类世界冠军。围棋为什么晚于国际象棋?一个重要的原因就在于,下国际象棋是人类理性分析的行为,下的每一步,国际象棋大师都可以说出它的道理,过去做国际象棋程序的时候,是用理性分析的模型来做的。但当我们想用理性分析的模型做围棋程序时,都没有成功。由此可见,下围棋是模式识别的过程,讲不出道理来,讲究的是棋感,是直觉。理解了这一点后,这个问题就迎刃而解了。

开始做AlphaGo的时候,机器还会学习人类历史上下过的围棋,一共约有3000万个棋局,这样的数据量对于计算机来讲也太容易了。它把这3000万个棋局学习完,同时AlphaGo自己又和自己下过3000万个棋局,这样加起来是6000万个棋局,而围棋大师李世石和柯洁一生中最多不过几百万个棋局,于是它就被人工智能完全打败了。

后来到AlphaZero的时候,它已经根本不用学习人类下过的棋局了,就自己跟自己下下几亿个棋局。所以,人类完全不是人工智能的对手。这个问题非常简单,就是由机器自身来产生数据。业界普遍认为,在2015-2030年的15年间,人工智能将主要应用于以下10大领域:交通、家庭/服务机器人、健康、教育、低资源群体、安全、雇员与工作场所、娱乐,以及金融和智能制造。前8个领域是国外提出的应用,金融和智能制造是中国提出的应用。


未来人工智能的产业化应用

关于人工智能的应用,我举一个我任首席科学家的深醒科技公司的例子。

深醒科技开发了一种人脸识别技术,它的应用场景首先定位在抓捕逃犯。据公安部统计,目前全国的逃犯约有25万人,按照过去的方法很难抓到。深醒科技首先在贵阳市的机场、火车站和长途汽车站装了13路摄像头,在2016年12月-2017年5月上旬的半年时间里,抓获各类犯罪人员150人,其中全国逃犯21人。而在没装“摄像头”之前,2016年全年贵阳市公安局只抓到1个全国逃犯。

又比如,当前对视频信息的机器识别需求非常大。

现在我们获得的视频信息非常多,以北京市为例,全市各个路段共装了近90万个摄像头,上海市装的更多,约120万个。由此得到的视频信息量太大,通常存储一个月后就必须删掉,否则新的信息就没办法存进来了。如此大量的视频信息靠人来看是不可能完成的。

还有,医学影像识别。

诚如我们所知,各种癌症的早期诊断非常重要,大家都投入很大的力量做这件事情,如果能够早期发现癌症,就可以挽救大量的人的生命,中国对此也非常重视,在这方面全世界最有名的是数据科学杯比赛,2017年就是由我的3个博士生获得了冠军。此外,有了网络以后,在远程登录或移动登录的时候,身份验证变成了非常重要的问题,涉及安全。现在我们做的身份验证,早期用密码,后来用人脸、指纹识别等,但可惜的是,这些身份鉴别方法,如果你是在远程登录或移动登录的时候都可以做假。

幸运的是,现在语音还没有办法做假。

清华大学经过三十多年的努力,解决了用语音在远程登录或移动登录过程中防止造假的问题,这主要是要区分录音和真人说话,即使是双胞胎说话都能区别出来,目前,很多银行都在使用这一技术。

当然,人工智能技术也存在局限性。

现在人工智能所能解决的问题需要5个条件限制:拥有丰富的数据或(和)知识、完全信息、确定性、静态(按确定的规则演化)、有限领域与单任务。只有满足这5个条件,人工智能才能做的很好,甚至超过人类;不满足这5个条件中的任何一条,人工智能发展就会很困难。如果是不完全信息,人工智能是无法超过人类的,这是数据和数量与质量的问题。

大数据非常强调数量,但不是有了巨大的数量就可以做好人工智能,还必须要保证数据的质量。往往有用的信息只有一点,而大量的信息是无用的,并且很多信息还具有欺骗性。

这些无用或欺骗性信息对计算机的性能有很大的影响。如果用好的、质量高的图片训练人工智能,识别率可以达到80%,但是用质量差的信息训练,识别率只能达到百分之十以上。

目前,用大数据建立的系统还有很多问题。

其中,网络数据质量不高,就是利用大数据面临的重要挑战。网络上有用的数据通常只占40%,大部分是垃圾、没用的、造谣的数据,而网络数据有标注的仅有7%,经过分析的仅有1%,也就是说,有用、好用的数据不到
10%。所以在使用网络数据时,数据质量是必须要注意的问题。基于网络数据这样质量不高的大数据所训练出来的系统,性能难以避免地存在很多毛病,不可能训练出一个具有智能化的系统。

另外,在人工智能做医疗诊断方面,目前都遇到这样一个问题:人工智能对癌症的识别率甚至可以超过人,但医生却不敢用。为什么?因为不可解释。人工智能诊断有癌症,但医生解释不出来原因,这是现在使用大数据做出的人工智能系统存在的一个最大的问题。系统尽管做得非常好,但是医生不敢用,所以必须要解决这个真实性的问题。

除了真实性的问题,还有鲁棒性的问题。

比如,一个炮兵阵地的图片,当我们只是加入一点点噪声,在人类看来,图片没有太大的变化,但是,计算机识别,它就变成了一个海滩,这就是鲁棒性,这一点正说明了人工智能带来的危险性。现在的人工智能系统,特别是用大数据建立的人工智能系统,非常容易被攻击,这就是美国人提出的所谓“算法战争”,以后打仗不一定用真刀真枪,就是用算法把系统搞垮。所以,网络攻防、智能化的攻防变成非常大的课题,全世界都在研究。

自动驾驶也是如此。

我们过去花很长的时间在这个领域,对图像进行实时分割和识别。经过多年努力,很多公司做到了这一点,现在基本上通过大数据学习,能够建立实时的建模,明确哪个地方是车辆、哪个地方是道路、哪个地方是行人。研究人员曾经认为,这个问题解决了,自动驾驶就解决了。但实际上并非如此,这样的自动驾驶只能在特殊的情况下使用,比如在专用道上。问题出在哪里?一个系统一旦有人类参与,就变得非常复杂,对机器而言就不好解决。

就目前而言,人工智能要进行产业化。

一方面要选择合适的应用场景:一是拥有丰富的数据或(和)知识,二是完全信息,三是确定性,四是静态(按确定的规则演化),五是限领域与单任务。另一方面还需加强基础研究,带来技术突破。


上一篇:机器翻译会取代人类独立工作吗?
下一篇:金山葛珂:明年是AI落地元年 自然语言处理将体现价值
精选推荐
7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤

[2019-11-06]  哈佛大学研究人员发表在《自然》杂志上的一项最新研究,他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂(RoboBee),这种机器人在撞墙、 ...

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

本周栏目热点

李开复:关于人工智能在中国异军突起的六大主要原因

[2017-11-07]  虽然世界各个国家都已经开始加速对人工智能行业进行布局,虽然世界各国都已经出台了各种政策表示对人工智能的支持,但是就目前的发展形势来看,中美两国在人工智能领域的发展......

[2018-02-05]  “人工智能国际主流学界所持的目标是弱人工智能,也少有人致力于强人工智能。那么,这是不是因为强人工智能‘太难’,所以大家‘退而求其次’呢?不然。事实上,绝大多数人工......

阿里研究院:关于互联网+制造业的10个观点(组图)

[2015-12-29]     互联网对商业环节的渗透和改造是逆向的,从与消费者最近的广告营销端开始, ...

2020年中国AI基础数据服务行业发展报告

[2020-04-03]  核心摘要:目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点, 需要大量经过标注处理的相关 ...

【业界观点】2016年工业机器人需求增速将放缓

[2016-01-19]     2015年中国工业机器人需求规模达到109亿元,同比增长16%,而2016年机器人需 ...