【Science】CMU机器学习系主任:八个关键标准判别深度学习任务成功与否

目前,机器学习在医疗、金融、安防等领域应用广泛,并替代了一些流程化低级劳动,因此有人认为未来人类的工作将被机器学习所取代,人们面临失业的危险。

近日,《Science》发表了麻省理工学院数字经济倡导行动主任Erik Brynjolfsson和卡内基梅隆大学计算机科学学院机器学习系主任Tom Mitchell的文章,他们从机器学习和经济学角度分析了人类会不会“被失业”的问题。

引言:机器学习改变的太多了

在过去的几十年里,数字计算机已经改变了几乎所有经济领域的工作,现在的我们正处于一个更大、更快速变革的开端,这一切归功于机器学习的最新进展,它有能力加快自动化的步伐。

对机器学习的进展至关重要的是改进算法的组合,包括深度神经网络和相当快的计算机硬件。例如,Facebook基于短语的机器翻译模型,每天有超过45亿的语言翻译。图像识别的算法在ImageNet上造成了越来越低的错误率,使其从2010年的超过30%下降到今天的不到3%。同样,自2016年7月以来,语音识别方面错误了从8.4%降低到4.9%。

然而,机器学习是一个“通用技术”,就像蒸汽机和电力一样,它将产生大量的创新和功能。但对于具体的劳动力的影响和因此产生的更广泛的经济问题而言,我们还没有深刻的认识。现实也并不像我们有时所宣称的那样,人们面对即将到来的“失业”问题。

尽管机器学习的进步能力让人印象深刻,但它并不适用于所有任务,并且在在决策能力上也比人类弱的多。

八个关键标准来判别深度学习在任务中成功与否

1、能够学习函数,将定义明确的输入映射到明确输出

其中包括分类(例如,根据癌症发生的可能性给狗狗的图片做标记或标记医疗记录)和预测(例如,分析贷款申请来预测未来违约的可能性)。尽管机器学习可能学会预测与给定输入X相关的Y值,但这是一种学习的统计相关性,也许机器学习不会理解因果关系。

2、存在或者能够创建含有输入-输出对的大数据集

训练的例子越多,学习的准确度就越高。深度神经网络的显著特征之一是,它在许多领域的性能在一定数量的示例之后似乎并不具有渐近性。尤其重要的是,所有相关的输入特性都要在训练数据中获取。尽管原则上任何任意的函数都可以用深度神经网络表示,但是计算机很容易模仿和延续训练数据中存在的不需要的偏差,并忽略那些包含了它们不能观察到的变量的规则。通过对现有流程和客户交互进行监督,可以通过雇佣人员标记或创建全新的数据集,或者通过模拟相关的问题设置来创建数字数据。

3、能够提供明确反馈,具有明确的目标和指标的任务

当我们能够清晰地描述目标时,机器学习就能很好地工作,即使我们不能确定实现这些目标的最佳过程。尽管机器学习能模仿个体,但由于在获取个体的输入输出决策能力上的缺失,因此它可能不会形成最佳的全系统性能。因此,为性能定义了系统范围的度量标准,为深度学习系统提供了一个黄金标准。当训练数据按照这样的黄金标准进行标记时,深度学习尤其强大,从而定义了预期的目标。

4、摆脱对背景知识或常识的依赖,缩短甚至跳脱逻辑推理的长链

机器学习系统在学习数据中的经验关联方面非常强大,但是当任务需要依赖计算机未知的常识或背景知识的长推理链或复杂计划时,它的效率较低。 一般来说,机器学习在视频游戏中表现不错,这种游戏需要快速反应,并提供即时反馈,但在游戏中选择最佳动作取决于记忆先前事件的时间以及关于世界的未知背景知识 (例如,知道房间里新引入的物品可能在哪里找到)。 例外的是,围棋和象棋这样的游戏,因为这些非物理的游戏可以以非常精确的速度快速模拟,所以可以自动收集数百万个完全自我标记的训练样例。 但是,在大多数现实世界中,我们缺乏完美的模拟。

5、不需要详细解释决定是如何做出的

大型神经网络通过巧妙地调整数以亿计的数字权重来学习做出决定,这些数字权重互连了他们的人造神经元。 解释这种决定对人类的推理可能是困难的,因为深度神经网络通常不会使用与人类相同的中间抽象。 例如,虽然计算机可以诊断特定类型的癌症或肺炎,或者比专家医生更好,但与人类医生相比,他们解释为什么或如何提出诊断的能力较差。

6、具有容错性,不需要最佳解决方案,或者证明是正确的解决方案

几乎所有的机器学习算法都是从统计和概率上推导出他们的解决方案。 因此,很难将其训练到100%的准确度。 即使是最好的语音,物体识别和临床诊断计算机系统也会犯错(就像最好的人类一样)。 因此,容忍学习系统的错误是制约采用的重要标准。

7、学会的现象或函数/功能不要随时间发生快速的变化

一般来说,只有当未来测试例子的分布类似于训练样例的分布时,机器学习算法才能很好地工作。 如果这些分布随着时间而改变,则通常需要再培训,因此成功取决于相对于新培训数据获取率的变化率(例如,电子邮件垃圾邮件过滤器做得很好, 部分原因是与垃圾邮件发生变化的速度相比,新电子邮件的获得率the rate of acquisition较高)。

8、没有专门的灵巧性,身体技能或移动性要求

在处理非结构化环境和任务中的物理操作时,机器人与人类相比仍然笨拙。 这不是机器学习的缺点,而是机器人的一般物理机械操纵器的现有技术的结果。

六个非技术影响因素

除了上述标准外,还有许多非技术因素会影响到机器学习对劳动力的影响。 具体而言,机器学习对劳动力需求和工资的总体影响可以写成六个不同经济因素的函数:

1、劳力替代

2、价格弹性

3、互补性

4、收入弹性

5、劳动力供给弹性

6、业务流程重新设计

(经济学内容在此不做详细叙述)

最后,任何关于机器学习够和不能做什么,以及如何影响经济的讨论,都应该首先认识到两个基本的考虑因素:1、我们仍非常远离通用人工智能,机器也不能做全方位的任务。2、尽管技术创新通常能够影响和改善整体生活水平,但技术进步导致工资不平等表明,机器学习带来的经济效应可能具有极大的破坏性,既造造就了赢家,又造就了输家。

这就要求决策者、商业领袖、技术人员和研究人员相当重视这些问题。

原文发布时间为:2017-12-23

本文作者:张乾

原文链接:【Science】CMU机器学习系主任:八个关键标准判别深度学习任务成功与否

时间: 2024-09-22 18:10:28

【Science】CMU机器学习系主任:八个关键标准判别深度学习任务成功与否的相关文章

(转) 机器学习很有趣Part6:怎样使用深度学习进行语音识别

  本文转自:http://www.jiqizhixin.com/article/2321   机器学习很有趣Part6:怎样使用深度学习进行语音识别 2017-02-19 13:20:47    机器学习    0 0 0 还记得machine learning is fun吗?本文是该系列文章的第六部分,博主通俗细致地讲解了神经网络语音识别的整个过程, 是篇非常不错的入门级文章.   语音识别正闯入我们的生活.它内置于我们的手机.游戏机和智能手表.它甚至正在让我们的家庭变得自动化.只需要 5

一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别

在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习.深度学习.人工智能.统计学.物联网.运筹学和应用数学等相关领域的比较和重叠.Granville 介绍说,由于数据科学是一个范围很广的学科,所以他首先介绍了在业务环境中可能会遇到的数据科学家的类型,你甚至可能会发现你自己原来也是某种数据科学家.和其它任何科学学科一样,数据科学也可能会从其它相关学科借用技术.当然,我们也已经开发出了自己的技术库,尤其是让我们可以以自动化的方

拒绝跟风,看机器学习、数据科学、人工智能、深度学习、统计学等的区别

本文作者Vincent Granville通过阐明数据科学家各种各样的角色,以及数据科学与相关领域的不同以及交叉,比如机器学习.深度学习.AI.IoT.统计学.运筹学和应用数学.PS,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps. 以下为译文 因为数据科学是个广义的学科,所以这里将从任何业务里都可能会遇到的数据科学家类型开始,通过这个部分或许你能发现自己隐藏的数据科学家潜质:)正如任何科学学科一样,

机器学习、数据科学、人工智能、深度学习、统计学等的区别

因为数据科学是个广义的学科,所以这里将从任何业务里都可能会遇到的数据科学家类型开始,通过这个部分或许你能发现自己隐藏的数据科学家潜质:)正如任何科学学科一样,数据科学家也可能向相关学科学习借鉴,尽管数据科学已经有自己的部分,尤其是自动处理超大规模非结构化数据的方式和算法,甚至不需要人为干涉,就可以做实时处理或者预测. 1. 数据科学家的各种类型 想要开始并且了解一些以前的观点,不妨参考2014年发布的文章" 9 types of data scientists"或者同年另一篇文章比较数

清华机器学习科学家李建:如何用深度学习来解析时空大数据?

雷锋网AI科技评论按:6月24日下午,钛媒体和杉数科技主办的2017 AI 大师论坛在京举行,论坛邀请了五位算法优化.机器学习领域的顶尖教授.学者出席并发表学术演讲,雷锋网(公众号:雷锋网)记者也对论坛进行了跟踪报道.本篇内容根据机器学习领域专家李建的论坛分享实录整理而成. 李建,清华大学交叉信息研究院助理教授.杉数科技科学家,美国马里兰大学博士.国内机器学习领域最顶尖的前沿科学家之一,国际学术会议VLDB 2009和ESA 2010最佳论文奖获得者,清华211基础研究青年人才支持计划以及教育部

机器学习算法汇总:人工神经网络、深度学习及其它

学习方式 根据数据类型的不同,对一个问题的建模有不同的方式.在机器学习或者人工智能领域,人们首先会考虑算法的学习方式.在机器学习领域,有几种主要的学习方式.将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果. 监督式学习: 在监督式学习下,输入数据被称为"训练数据",每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中"垃圾邮件""非垃圾邮件",对手写数字识别中的&

【Science】超越深度学习300倍, Vicarious发布生成视觉模型,LeCun批“这就是AI炒作的教科书”

最近大家都在探索"超越深度学习"的方法,"美国版DeepMind" Vicarious 近日在Science上发布的一项研究,使用不同于深度学习的方法,将数据使用效率提升了300多倍,"对于未来的通用人工智能有重要意义".该研究称,使用这种新的技术,他们攻破了网站常见的验证码防御,相当于通过了"反向图灵测试".LeCun对这家公司和他们的研究提出了尖锐的批评,说"这是AI炒作教科书式的例子".不过,支持Vi

Deep Learning(深度学习)学习笔记整理系列之(八)

目录: 一.概述 二.背景 三.人脑视觉机理 四.关于特征        4.1.特征表示的粒度        4.2.初级(浅层)特征表示        4.3.结构性特征表示        4.4.需要有多少个特征? 五.Deep Learning的基本思想 六.浅层学习(Shallow Learning)和深度学习(Deep Learning) 七.Deep learning与Neural Network 八.Deep learning训练过程        8.1.传统神经网络的训练方法

天龙八步 第二弹:8步从Python白丁到专家,从基础到深度学习

如果你想做一个数据科学家,或者作为一个数据科学家你想扩展自己的工具和知识库,那么,你来对地方了. 这篇文章的目的,是给刚开始使用Python进行数据分析的人,指明一条全面的Python学习路径.这条路径提供了用Python进行数据分析的必要步骤的一个全面概述.如果你已经有了一些基础,或者不需要所有的内容,可以随意调整学习路径以适合自己,并让我们知道你是怎么改动的. 0热身运动在开始学习之前,第一个需要回答的问题是 推荐这个30分钟的录像,它是DataRobot创始人Jeremy在2014年Pyt