百度举办的The Big Talk活动,第一场演讲即是百度首席科学家吴恩达(Andrew Ng)带来的有关人工智能的分享。作为斯坦福大学的教授,其在深度学习方面享誉世界的成就,被认为是在该领域世界范围内的“一哥”,吴恩达的选择也让百度成为了硅谷一颗耀眼的“新星”。这次The Big Talk深入硅谷腹地——谷歌总部的计算机历史博物馆(Computer History Museum)也是颇具象征意义。
当然,没有点真家伙,这样的象征也不过就是一种浮夸,吴恩达领导的百度深度学习实验室已经在该领域取得了巨大的成就,去年底对外宣布在语音识别方面(英语)已经跻身世界第一——在噪音环境下,识别率超过谷歌、苹果。
下文根据吴恩达演讲整理。
深度学习的“火箭”模型:神经元网络算法+大数据驱动
非常高兴大家可以在硅谷相聚,在过去几年,人工智能已经开始起飞,这对硅谷有很大的冲击,就像Jason(本次百度硅谷The Big Talk主持人,《MIT科技评论》主编)所讲,今天你会听到人工智能如何冲击并改变医疗保险、教育和其他领域。
这里面有很多种操作,今天我想和大家分享两件事情:
√ 第一点 什么是和什么不是深度学习
在二十分钟的时间里面我们希望可以让你知道这样的技术是什么。
√ 第二点 公司、学校、企业是否要做深度学习的技术?
对于在领先机构里面的你们,能够在策略上思考这项技术在自己机构里应用的必要性。
吴恩达为大家描述了一个人工智能的闭环,他介绍,多年以来在研究人工智能方面,大家普遍都相信,只要数据越来越多,由此就能不断改进产品,从而获取更多的用户并积累更多数据,于是就能形成一个良性的循环。但这样的想法始终未能成功。直到人工智能的介入,才终于将此拼图完善,形成理想中的良性玄幻。
回顾早前的人工智能算法,即使有很多的数据支持,但是表现始终未尽如人意。“随着新的人工智能的算法越来越好,我们可以第一次在整个圈里完成整个循环。”
吴恩达介绍,过去很多沟通都是通过文字,网页就是一堆文字。但如今在百度,“我们看到,特别是在移动互联网领域,沟通已经改变成为了图像和语音。”
吴恩达分享了他和百度对图像及语音在深度学习的理解以及行业正在孕育的机会,还有百度目前对于图像和语音深度学习方面的成就。
“七年前,在斯坦福,我让我的学生写程序识别咖啡杯的图像,他们用了当时最好的图像和算法,他们发现到处都是咖啡杯,为什么识别咖啡杯这么困难?”
吴恩达发现,电脑的问题就是它们看到的是咖啡杯色素的强度的数据,电脑认为这些数据定义了咖啡杯,所以长久以来这是造成电脑对图像学习方面的不足。
用神经网络算法赋予了深度学习新的引擎。吴恩达介绍,通过该算法可以了解这些物体,能做到的就是说照张相,给神经网络以很多数据,很多咖啡杯的图像,从而让机器不断不断地学习,学习这是咖啡杯。
对于人脑来说,这种过程很快,潜移默化中迅速学习了什么是咖啡杯。但是计算机视觉比这个要复杂得多。
人可以给图像以很多注解以学习和识别图像。比如下面几张图,黄色大巴开在路上,右边的画,一间起居室,很多阳光照进来,而人写这个注解的能力,就是对这个图像的深度理解。那么,可不可以让电脑理解图片和我们做的一样呢?
也就是说,电脑是否可以理解图像——可以有这个能力写注解?
吴恩达现场给了大家一个惊喜,他展示了下图并说道:”这个字幕不是人写出来的,是电脑写的,百度是第一个用神经网络技术写的。现在还有其他好多公司来尾随我们。”
在计算机视觉方面,百度已经建立了一个很好的技术来建立图像。“既然已经有非常复杂的电脑技术,现在就是要做到应用于什么?
”医学影像,图像搜寻,买什么衣服,百度还有其他公司有这样的计算机视觉技术,尝试新的产品和技术,今天我们也不知道最好的应用是什么,但未来几年会改变这方面的情况。”
吴恩达认为,深度学习正在变得越来越好,随着大数据的不断几何级数地累计,同时神经网络算法在近年来的迅猛发展——他将之比作为是火箭,燃料和引擎是能够成功升空的“动力”所在,任何一个的疲弱都会导致火箭发射失败。
“数据就是燃料,整个人类社会正在数据化,现在可以看到很多以前拿不到的数据。这就是很大的可以腾飞的火箭。大概是2010,五年前,最大的神经网络有一千万的连接点,几年后我就开始了在google云项目,用一千个电脑建立的一亿个神经元的网络,这其实为深度学习带来很大进展。后来我意识到这是一个非常昂贵的技术,有朋友就意识到用不同的技术,用其他GPU技术,在电脑里面处理讯息图像的技术可以建立这样的神经网络,就像是用大的引擎来飞火箭。比过去还大十倍。今天在百度,已经建立了巨大的神经网络。我代表百度来讲,我们是第一个建立深度学习的神经网络的公司,这就是火箭引擎(Rocket Engine),现在有很多公司正在步我们后尘。”
百度另一个已经取得的深度学习方面的领先成就是语音识别技术——Deep Speech
吴恩达介绍说:“今天百度很多用户是用语音搜索,很多年幼的用户和很多年龄大的用户,或文化程度不高的用户,无法用拼音输入来进行搜索。对于他们,用语音搜索是唯一的方式可以让我们知道他们的需求。如果在安静的环境中,手机可以识别你的语音。如果在嘈杂的环境中,比如车里或者餐厅中,识别就不是很好,我们要想办法解决这个问题。”
在早前,传统的方式是工程师要写软件,分解成小的软件来解决这个问题。吴恩达的团队认为,要不要换一个角度,为语音识别建立一个像之前说说的火箭发动机一样的模型。
“一般来说最大的语音识别的数据是需要两千小时的数据,而我们要利用七千小时的语音数据来,这样燃料就多了三倍。我们后来又说从这七千小时语音数据来总结出十万多个小时的数据,通过这些数据,可以建立矩阵,跟其他的语音识别系统,比别的API都好很多。在嘈杂的环境中也表现的比较好。秘诀就是我们有很大的引擎和很多的燃料。”
“为什么要说这个?市场上有很多的产品,但是语音会是一个改变互联网的重大因素。在这个方面,中国其实领先于美国和其他国家很多,特别是在移动互联网方面。中国人花很多时间在智能手机上,用打字的方式沟通,即使在嘈杂的环境中用语音沟通,可以通过讲话就可以给另一半发消息,如果语音识别继续改进的话,以后这个技术可能改变我们的生活。
关于埃隆·马斯克的“人工智能杀人说”:那是炒作
吴恩达没有点名,但是还是提到了包括霍金和埃隆·马斯克所担忧的人工智能会反噬人类的说法。
吴恩达认为这可以看做是炒作(Hype),”有很多人提到了邪恶的机器人,有些人在担心机器人可能会带来负面影响。其实我们现在掌握的技术是非常好的,我个人还不知道怎么建造出有自我感知的机器人。当然,我对于技术是很有激情的,我相信会改变我们的生活,给成千上万人的生活带来变化。有些炒作或担心我觉得没有必要。
“有时候我觉得可能是霍金掌握了一些关于人工智能的我所不知道的秘密知识(台下笑声)。”吴恩达认为,这样的’炒作’实际上给人类社会提出了不同的挑战,比如就业,技术一方面建立了很多机会,但是在历史上来说,技术也给就业带来了挑战。
“技术的变革越来越快,因此需要重新训练人,比如汽车产业,美国有三百五十万的卡车司机必须重新找工作。如今的教育界正面临前所未有的紧张,现在就要训练很多人适应新的生活方式,而不是训练下一代。”吴恩达担忧的是没办法及时训练需要的,对于“人工智能杀人说”吴恩达进一步认为是实际上牵涉到的是就业话题,是学术界、政客一些严人的“炒作”。
原文发布时间为:2015-02-01