在过去四年里,读者无疑已经注意到科技的发展给日常生活带来了翻天覆地的变化。很明显,我们手机上的语音识别功能从性能上较之前有了大幅度的提升。当我们使用语音命令呼叫我们的配偶时就能联系到对方,而不会转接到美国铁路公司或某一位愤怒的前任。
事实上,人与计算机间的语音交流手段变得日益丰富,目前有多种多样的产品供用户使用,例如亚马逊的Alexa、苹果的Siri、微软的小娜(Cortana)以及谷歌公司的语音接口等。中国的搜索巨头百度公司表示,在过去的18个月内,他们的语音接口的利用率已增至原来的三倍。
机器翻译和其他类似的语言处理工具也变得更加令人信服,谷歌、微软、脸书(Facebook)和百度等公司每个月都推出新花样。其中,谷歌翻译目前能够提供32对口语之间的互译,以及高达103种文本语言间的互译,其中包括宿务语、伊博语、祖鲁语等较生僻的语言。谷歌收件箱可以针对许多电子邮件提供三种预先拟定的回复。
图像识别领域也有巨大的进展,上述四家公司均提供了对无标签的图像进行自动分类的功能。用户可以通过提问来获取他们想要的图片,如“包含狗的图片”或一些更加抽象的问题,例如“包含拥抱的图片”。这些公司均有原型系统可以在数秒内针对特定图片产生句子级别的描述信息。
想象一下,如果要收集带有“狗”的图片,首先要能够识别不同品种的狗,同时还不能被类似于“图像上下颠倒”或“物体被部分遮挡”以及“物体位于雾、雪、阳光或阴凉处”这些问题所干扰,并且还要能将狗和猫、狼等其他种类的动物区分开。单独使用像素,怎么可能?
事实上,图像识别的进展远不仅限于那些看起来很酷的社交类应用上。一些医疗创业公司声称他们很快就可以用计算机来读取X光片、核磁共振以及CT扫描的图像,而且跟放射科医生相比,他们不仅速度更快,结果还更加精确,可以更早、创伤更少地诊断癌症,并且加速寻找拯救生命的药物的工作。机器人、无人机和自动驾驶等也是图片识别技术的受益者,未来这些产品将彻底改变我们的生活方式。
但大多数人没有意识到的是,所有这些突破在本质上都是同一个突破。使这些突破成为可能的原因是一种叫做“深度学习(deep learning)”的人工智能技术,当然很多研究者还是喜欢用它最初的学名“深度神经网络(deep neural networks)”。
神经网络最突出的优势在于“无须人工参与”。通过提供给程序大规模的图片和数年积累的语音样本,计算机能够自动识别出理想的目标、单词或语句。简而言之,深度学习使得电脑具有自学能力。英伟达公司(Nvidia)图像处理组的首席执行官黄仁勋(Jen-Hsun Huang)说“程序最终可以自己书写程序”。
事实上,神经网络的概念并不是最近提出的,其历史可以追溯到20世纪50年代,许多算法上的关键突破发生在20世纪80年代和90年代。其转变在于,今天的计算机科学家终于能够将巨大的计算能力和成百上千万的数据——图像、视频、音频和文本——结合起来使神经网络的性能得以充分体现。“这是深度学习的寒武纪大爆发”,风险投资机构安德森·霍洛维茨基金(Andreessen Horowitz, A16Z)的合伙人弗兰克·陈(Frank Chen)如是说。他用大部分高等动物突然出现的地质时代来类比深度学习取得的进展。
深度学习技术的迅猛发展引发了一系列的投资活动。根据美国CB Insights风投公司的数据显示,以人工智能为重点的创业公司的股权融资已突破10亿美元,创历史新高。相比于2011第二季度的21轮融资,在2016年同季度有121轮融资。5年间,总投资金额高达75亿美元,而其中60亿来自2014年以后。
2012年,谷歌公司仅开展了2个深度学习项目。如今,深度学习技术已经应用于其1000多个主要产品上,包括:搜索、安卓系统、Gmail、翻译、地图、YouTube和自动驾驶汽车。尽管IBM的沃森(Watson)系统在2011年击败两名问答冠军(Jeopardy champions)靠的是人工智能,而不是深度学习,但是目前,沃森首席技术官罗伯·海伊(Rob High)表示,该系统提供的30多种服务都因为深度学习而得到增强。
五年之前,恐怕没有几家风投公司懂得深度学习为何物,但现在如果创业公司不懂得这项技术,对于他们的投资就会非常谨慎。“我们生活在一个新的时代,” 弗兰克·陈说道,“软件产品会变得越来越复杂,这样人们会越来越依赖于自然语言处理模块与产品交互,而不是去点击界面上的图标来操作软件产品。”
硬件领域同样也被深度学习的迅猛发展所影响,图形处理器(GPU)的出现能够提供高于传统CPU 20~50倍的计算能力,使得计算能力的持续增长成为可能。在今年8月份,英伟达公司宣布,其数据中心的季度收入为1.51亿美元,相比去年提升了一倍多,其增长主要依靠深度学习的广泛应用。
当然,硬件行业的巨头英特尔公司也没有静止不前,在过去的两个月中,他们收购了两家可提供定制深度学习技术的创业公司:Nervana系统(超过4亿美元)和Movidius(价格未披露)。
谷歌公司在5月份披露,在过去一年里谷歌已经秘密使用名为“张量处理单元(Tensor Processing Units, TPUs) ”的定制芯片来实现基于深度学习的应用(张量是类似矩阵一样的数组,在深度学习的计算中经常要使用其进行相乘运算)。
事实上,企业目前处于另外一个转折点,百度公司的首席科学家吴恩达(Andrew Ng)说:“在过去,许多标普500强公司的首席执行官们希望尽早开展互联网战略。但是,五年后他们会更希望尽早开展人工智能战略。”
即使在互联网中也没法充分地体现人工智能与深度学习结合后带来的影响,但是按照吴恩达的观点,“人工智能就是新的电能,正如100年前的电力改变了工业界,现在人工智能在做着同样的事情。”
我们可以将深度学习看作是人工智能的子集中的子集。人工智能包括一系列的技术,如传统的逻辑和基于规则的系统,它们使计算机至少可以用类似思考的方式去解决问题。在这个领域中,有一个更小的类别称为机器学习,这是一个神秘但又重要的数学技术工具箱的总称,能够使计算机利用经验来提升解决问题的能力。最后,机器学习中的一个较小的分支才是深度学习。
吴恩达说,“我们可以将深度学习理解为‘A到B的映射’,例如以音频片段作为输入,以文本形式输出”。只要你有充足的训练数据,深度学习的潜能就是无限的。例如,输入是“邮件”,输出可以为“该邮件是否为垃圾邮件”,输入是“贷款申请”,输出为“客户偿还该贷款的可能性”,等等。
深度学习几乎可以改变任何一个行业。谷歌大脑(Google Brain)项目的负责人杰夫·迪恩(Jeff Dean)说:“计算机视觉一旦开始使用就会变得真正起作用了”。之后,他又补充解释道,“它真正的含义是计算机已经可以做到自我观察了”。
那么,目前是不是已经实现那个曾经的假设,即“超级智慧机器可以自我提升,从而将人类远远地甩在身后”。其实,事实远未至此,神经网络具有很好的模式识别能力,在某些情况下甚至好于人类,但是他们不能推理。
第一次机器学习的变革产生于2009年。这一年夏天,微软首席研究员邓力邀请神经网络创始人、多伦多大学教授杰弗里·辛顿(Geoffrey Hinton)到微软访问。辛顿对于神经网络的深入研究给邓力组留下了深刻的印象。该小组尝试用神经网络进行语音识别。邓力承认,“实验的结果非常令人震惊,准确率比原型系统提高了30%。”
在2011年,根据邓力的建议,微软在其商业语音识别产品中引入了深度学习技术,2012年8月,谷歌开始跟进。
真正的转折点出现在2012年10月。在意大利佛罗伦萨的一次会议中,斯坦福大学人工智能研究室的负责人、著名的年度ImageNet计算机视觉大赛创办人李飞飞宣布, 辛顿的两名学生发明的软件,识别物体的准确度几乎是旗鼓相当的对手的两倍。辛顿认为“这是一个惊人的结果,并且能够让很多深度学习的怀疑者相信深度学习的性能。”(在去年的比赛中,深度学习已经优于人工操作。)
图像识别的突破就是发令枪,激起了各大公司的人才争夺战。谷歌率先招募了辛顿那两名获得竞赛第一名的学生,脸书签约了法国深度学习的开创者雅恩·乐昆(Yann LeCun),他在20世纪80和90年代率先使用深度学习算法赢得ImageNet竞赛。百度则抢走了吴恩达,他曾是斯坦福大学人工智能实验室的负责人,在2010帮助创立和领导了基于深度学习的谷歌大脑项目。
从那时起,这场招聘狂欢愈演愈烈。微软的邓力强调,“当今的人才争夺像战争一样激烈。”
现年68岁的辛顿第一次听闻“神经网络”是在1972年,当时,他正在爱丁堡大学进行有关人工智能的毕业设计。鉴于具有在剑桥大学实验心理学毕业的背景,他很快对神经网络产生了浓厚的兴趣。他认为,“神经网络将人脑的工作方式以软件形式予以呈现。”他的观点提出后,所有人都认为他的想法太过天真,但是辛顿仍坚持这个观点。
神经网络有望让计算机像儿童一样通过学习的方式从经验中掌握规律,而不是以基于规则的形式工作。辛顿指出,“那时大部分人工智能受逻辑启发,但是,对于人类来说,随着年龄的增长才会逐渐使用逻辑,在2~3岁时并不具备逻辑能力。所以,神经网络能够比逻辑更好地实现智能。”
在20世纪50年代至60年代间,神经网络流行于计算机科学家中。1958年康奈尔大学研究心理学家弗兰克·罗森布莱特(Frank Rosenblatt)在海军项目的支持下,在布法罗的一个实验室内建造了一个神经网络原型系统,他称其为“感知器(Perceptron)”。它使用了一个穿孔卡片计算机,机身占据了整个房间。经过50次试验,系统学会了区分标记在左边上的卡牌和标记在右边上的卡牌。当时《纽约时报》是这样报道这件事的:“(美国)海军今天透露了一台电子计算机的雏形,预计将来能够行走、说话、看、写、复制自己,并意识到自己的存在”。然而,该感知器只有一层神经元,因此其性能非常有限,但研究人员相信在增加了更多的层次或采用深层神经网络后,系统的性能会有极大程度的提升。
辛顿用最浅显的方式解释了这一设想。假设使用神经网络去理解一些摄影图片,部分图片拍摄了鸟类。当输入图片后,多层神经网络中的第一层将对图像进行切分,分析图像的边缘,找到亮色和暗色的边界。接下来,第二层针对第一层得到的边界切分结果继续分析,检测是否有不同色调的边缘会形成某一轮廓。这时候,某些神经元就会将“像鸟的嘴”这一类的轮廓探测出来。越高层的神经元越能够发现更加复杂的图形,像是许多边缘排列成一个圆圈,在这一层上的神经元就会对鸟的头部产生反馈。当然更高层次上的神经元能够探测到有类似鸟嘴的形状和类似头部的形状是近邻的这一情形,极大地暗示了此形状为鸟类的头部。辛顿解释道:“每个更高层的神经元会对更大、更复杂、更抽象的概念反馈,直到在顶层产生类似于人的概念,即‘这是一只鸟’”。为了使神经网络能够学习,所做的不能仅仅是将输入数据按层上传,还需要能够检验在顶层得到的结果是否正确,如果不正确就要将数据传回底层神经元以重新激励改进结果。上述过程就是学习的工作方式。
在20世纪80年代初,辛顿即针对此问题进行研究。同时,雅恩·乐昆在巴黎也将这一研究作为其毕业研究方向。他对由辛顿在1983年发表的一篇有关“多层神经网络”的文章产生质疑,他认为“文章中所使用的‘术语’是有问题的,但是由于当时如果文章中提到‘神经元’或‘神经网络’是很难发表的,因此,辛顿以一种晦涩的方式书写他的论文使其通过审稿人的评议。”尽管如此,在雅恩·乐昆的眼中,这篇文章还是非常有吸引力的。两年后两人相见,并且一见如故。
在1986年,辛顿和他的两名同事共同撰写了一篇开创性的论文,该论文提供一种用于误差修正的算法。乐昆表示,“此论文是神经网络第二波浪潮的奠基,它再次点燃了研究者对神经网络的热情”。
1988年,在跟随辛顿完成博士后工作后,乐昆就职于AT&T贝尔实验室,此后10年,他做了大量的基础性工作,这些工作在今天仍然被应用于图像识别任务中。在20世纪90年代,基于乐昆的研究结果,当时贝尔实验室的子公司NCR开发了一个商业化的神经网络装置,用于识别支票上的笔迹,被银行广泛应用。与此同时,两名德国研究员泽普·霍赫莱特(Sepp Hochreiter)和尤根·施米德胡贝(Jürgen Schmidhuber)分别开创性地提出一种不同类型的算法,该算法在20年后的今天成为自然语言处理应用的关键。
然而,由于计算能力的限制,在20世纪90年代中期,神经网络的热潮有所降低,并且这种情况一直延续了大约10年。直到计算能力呈现3~4个数量级的提升,以及研究者发现了GPU的高速计算能力,这种情况才有所好转。
上述的陈述中缺失了一部分重要的内容,就是数据。虽然互联网充斥着大规模的数据,但是大多数数据尤其是图像数据是未标注的,因此无法用来训练神经网络。这就是斯坦福大学教授李飞飞所涉足的领域,她的想法是利用大数据来改变机器学习的工作模式,做到由数据驱动学习。
2007年,李飞飞启动了ImageNet项目,收集了超过1400万个带标记的图像组成一个免费的图像数据库。2009年,该数据库上线。次年,她举办了一个年度竞赛用于激励和发表计算机视觉领域的突破进展。在2012年8月,当辛顿的两名学生获得当年度的竞赛冠军时,毫无疑问地宣告,深度学习的时代到来了。
当时,大众因为另一事件也听闻了深度学习。2012年6月,谷歌大脑发布了一个创意项目的结果,该项目俗称为“猫的实验(cat experiment)”。此实验引起了巨大的反响,并在社交网络上迅速走红。
这个项目的真正目的在于探索深度学习中一个尚未解决的关键问题,即“无监督学习”。迄今为止,几乎所有在商业中应用的深度学习产品都是“有监督的”,即使用标记数据(如ImageNet上的图像)来训练神经网络。而“无监督学习”恰恰相反,其输入为非标注数据,其目的在于寻找反复出现的模式。研究者们更倾向于利用无监督方法,这样机器就能够利用庞大的数据自我学习,像婴儿一样自我感知世界。
在“猫的实验”中,研究者构建了一个超大规模的神经网络(共计1000台计算机),输入数据为从YouTube视频上随机截取的1000万个未标记图像,然后让计算机自主学习。当将“噪声”数据去除后,研究员检查了最高层级的神经元,他们发现其中一个神经元能够针对猫的图像给予极大的反馈。当时谷歌大脑的项目负责人吴恩达说,“我们还发现一个神经元能够明显对人类的面部图像产生强反馈。然而,结果同样令人费解。比如,我们没有发现任何一个神经元能够对汽车图像产生强反馈,还有很多神经元反馈的结果根本无法表达。所以距离实现无监督的深度学习这一目标的路程还很远。”
这个实验虽然引起了轰动,但是无监督学习仍然未被完全解决,这是留给未来的一项挑战。
毫不奇怪,目前大多数在商业上使用深度学习产品的公司如谷歌、微软、脸书、亚马逊等,均是由于公司内部有大量的数据作为支撑。很多公司正在研发更加真实和有用的聊天机器人作为自动化的客服代表。
四大技术巨头越发重视深度学习技术
谷歌
谷歌在2011年成立了聚焦于深度学习的谷歌大脑项目。2012年中期,将神经网络引入到其语音识别产品中。2013年3月,他们招来了神经网络先驱辛顿教授。如今,谷歌正在实施的深度学习项目已经超过1000种,涵盖了搜索、安卓、Gmail、照片、地图、翻译、YouTube和自动驾驶汽车等众多领域。2014年,谷歌收购了DeepMind,其深度强化学习项目AlphaGo在三月份打败了围棋世界冠军李世石,成为了人工智能发展的里程碑。
微软
2011年上半年,微软在包括必应(Bing)语音搜索和X-Box语音指令等商业语音识别产品中使用了深度学习技术。目前,微软在搜索排行、照片搜索、机器翻译等系统中均使用了神经网络技术。邓力说:“已经很难描述深度学习的深远影响了。”去年,微软赢得了一项关键图像识别竞赛,9月份,微软在语音识别中得到了令人震惊的低错误率6.3%。
脸书
2013年12月,脸书聘请了法国神经网络的开创者雅恩·乐昆来领导公司新的人工智能研究实验室。脸书每天利用神经网络来翻译超过40种语言的大约20亿的用户帖子。公司宣称,每天有8亿用户在阅读这些翻译过的帖子(几乎有一半的用户不使用英语)。脸书还将神经网络应用于照片搜索和整理中。目前,公司正在研究一项应用于视力障碍人群的功能:为没有标签的照片产生语音标记。
百度
2014年5月,百度聘请谷歌公司谷歌大脑项目的奠基者之一吴恩达来领导研究实验室。作为中国领先的搜索引擎和网络服务公司,百度也在其语音识别、翻译、照片查询、自动驾驶汽车等领域中应用了神经网络技术。在中国这个汉语难以输入进电子设备的国度中,语音识别尤为重要。百度谈到,在过去的18个月里,使用其语音接口的用户数量增加了2倍。
像IBM和微软这样大型的公司也正在帮助企业客户逐渐适应深度学习类产品(如语音识别接口和翻译服务)。而像亚马逊这样的网络服务公司则主要活跃于向客户提供便宜的用于深度学习计算的高性能GPU。大量的开源软件(如Caffe、谷歌TensorFLOW、亚马逊DSSTNE)本着开源的精神,加速了创新进程。它们使更多的研究者可以快速发表他们的研究结果,而不必等待同行的许可。
很多激动人心的深度学习应用都应用于医学领域。“我们已经了解到,神经网络在图像识别方面可以很好地工作,”A16Z生物投资项目负责人,斯坦福大学教授维杰·潘德(Vijay Pande)观察到,“放射科、皮肤科、眼科等很多科室的医生所做的大部分工作其实就是图像识别。”
深度学习与医学
创业公司Enlitic利用深度学习来分析CT和核磁共振等医学检查影像。公司总裁伊戈尔·布兰尼(Igor Barani)此前是加州大学旧金山分校的放射线肿瘤学教授。他说道,“Enlitic公司的算法在判断肺部结节是恶性还是良性方面比四个放射学专家做的还要出色。”(这项工作还未得到同行审阅,该技术还未得到FDA的认可。)
默克制药公司(Merck)正在尝试使用深度学习来加速药物的发现进程,在旧金山新创建了一个制药分公司,名为“Atomwise”。在这里,神经网络用于检测一个由数千个分子构成的药物的3D图像,从而预测该药物是否适合抑制病原体的致病机制。很多这样的公司正在使用神经网络来试图改进人类已有的成果,还有一些公司则试图做人类还无法实现的工作。
27岁的计算生物学博士加布里埃尔·奥特(Gabriel Otte)创建了他的公司Freenome。该公司的目标是从血样中检测出癌症,他们可以检测出血液中细胞死亡时释放出的DNA片段。通过深度学习,他命令计算机寻找无细胞DNA和一些癌症之间的相关性。奥特说道,“我们将看到还未被癌症学家发现的新的癌症特征。”在A16Z考虑对Freenome增加投资时,基金负责人潘德给奥特五个盲选样本,其中两个为正常,三个为癌症样本,奥特的判断结果全部正确,最终潘德决定对其投资。
一个放射学专家一生也许只能看到几千张医学影像,但是一台计算机可以观察数百万张影像。所以,潘德说,“‘也许将图像问题交由计算机来解决是更好的’这一想法其实并不夸张。因为计算机可以处理完一个人一辈子也无法完成的庞大数据。”技术的潜在优势不仅仅在于更好的准确率和更快的分析速度,还有自治化的服务。当技术变得越来越标准,每个病人最终都可以受益于此。
我们所能感受到的深度学习的最大冲击恐怕是它以我们从未想过的方式被嵌入到其他人工智能的应用中去。比如谷歌的DeepMind已经完成了惊人的工作:将深度学习和增强学习相结合,他们用这两项技术创造出AlphaGo。在去年三月,AlphaGo打败了围棋世界冠军,这被公众视为人工智能的一个里程碑。不同于在1997年打败了国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov)的IBM深蓝(Deep Blue),AlphaGo在编程中并未使用决策树,或其他的用于评价所在位置的方法,以及if-then规则。DeepMind的总裁戴密斯·哈萨比斯(Demise Hassabis)说,“AlphaGo是通过自我博弈和观察大型专业比赛来学习如何下围棋的。”(在训练中,AlphaGo自我对战次数高达百万次)。
游戏也许更像是一种人为设定,但是哈萨比斯认为,相同的技术可以应用解决真实世界的问题。今年7月,谷歌的报告显示,使用与AlphaGo相似的方法,DeepMind可以将谷歌数据中心的能源利用率提高15%。哈萨比斯说,“数据中心大约有120个不同的变量,可以通过调节风扇、打开窗户、关闭计算机电源来减少电力消耗,可以从传感器、温度计等设备中获取数据。这很像围棋游戏,通过反复试验,将学习到怎样做是对的。这个方法非常棒,每年可以节约几千万美元,同时也保护了环境。因为全世界的数据中心消耗了很多能源,我们希望在更大范围使用这项技术,甚至推广到国家电网系统中。”
聊天机器人是非常棒的,那将是个酷炫的应用。
所有评论仅代表网友意见