机器学习在商业领域大有作为,但还需要跨过数据和政策的难关

基于数据分析的机器学习(ML)正在重写企业处理数据的规则。机器学习和分析的研究已经在数据科学家的帮助下将大量数据形式转化成分析规则。现在,机器学习已经进入商业世界。但是,大多数公司并没有真正了解机器学习如何给他们的商业方式带来变化——或者如何改变组织在这个过程中的形态。公司希望通过机器学习进行流程自动化或完成数据驱动的任务来提高人的能力。而且,通过机器学习,企业也有可能变成供应商——从他们自己庞大的数据存储库中吸取经验教训,并将其授权给软件和服务提供商。

但是,实现这一目标将取决于未来5年机器学习能力的发展,以及这一进化对今天的长期招聘策略的影响。在无人监督的机器学习中,系统得到了大量的数据集,并且希望在没有人类的帮助下弄清楚自己需要寻找什么。

宝洁公司商业智能和分析服务总监 David Dittman 解释说,自己与其他大型美国公司面临的分析难题是“他们正在被‘机器学习和分析’技术所吸引,而不了解他们必须‘为它’建立基础,因为很艰难,很昂贵,而且需要远见。“ 相反, Dittman 说,公司错误地认为机器学习能够满足他们的愿景:“我不能让人工智能告诉我答案吗?”问题在于“人工智能”并没有真正发挥他们想要的作用。

机器学习目前分为两大类:监督和无监督。如果没有坚实的数据基础,这两种方式都不可行。

打破训练

(Yisong Yue是加州理工学院计算和数学的助理教授,他认为无人监督的机器学习在放射影像中诊断癌症等领域具有巨大的应用前景)

有监督的机器学习要求人类创建训练数据集,并验证训练的结果。加州理工学院的计算机和数学助理教授Yisong Yue解释说,语音识别是这方面的一个主要例子。“语音识别是在高度监督的方式下进行的,”Yue说。“你要从庞大的数据开始,先让人们说出某些特定的句子。”

但 Yue 说,收集并将足够的数据进行分类以此来监督训练是很有挑战性的。“想象一下,用各种各样的方式说出这些句子是多么的昂贵。数据科学家们需要对这些东西进行注释,这对于你想要解决的每一个任务来说都是无法扩展的。有监督的机器学习有一个基本的限制。”

无监督的机器学习减少了这种相互作用的影响。数据科学家选择一个大概的数据集,并且告诉软件找到其中的模式,不需要人首先弄明白软件需要寻找什么。由于需要的人工任务非常少,所以没有监督的机器学习(特别是在人工工作负载方面)的可伸缩性要高得多。但是,“无监督”一词可能会产生误导,其实数据科学家还是需要选择数据来进行检查。

Forrester Research 副总裁兼高级分析和机器学习首席分析师 Mike Gualtieri 说:“无人监督的机器学习软件被要求发现可能有用的数据集群,而人类则分析这些数据,并决定下一步做什么。”人们仍然需要对软件创建的数据分组进行分析。

但无人监督的机器学习的收益可能会更广泛。例如, Yue 说,无监督学习可能会在诸如癌症诊断等医疗任务中得到应用。他解释说,标准的诊断工作包括进行活体检查并将其送到实验室。问题在于,活组织检查本身就是人力密集型的分析工作 ,耗时且昂贵。当医生和患者需要立即知道是否是癌症时,等待活检结果可能会有医疗风险。今天,一位放射科医生通常会观察组织,他解释说,“放射科医师会做出一个预测——包含癌变组织的可能性。”

“有了足够大的训练数据,这可能是一种监督机器学习的应用,”Yue说。“假设我们取了这个数据表——组织的图像和活检结果——然后进行了监督的ML分析。“这将是一种劳动密集型的工作,但它可以检测到活检呈阳性的图像的相似性。

但是,Yue问道,如果把这个过程当做一个没有监督的学习努力,又该怎么办呢?

“假设我们有一个图像数据集,但我们没有活检结果,我们可以用它来确定我们可以用集群来预测什么。”假设样本数为1,000。软件会对图像进行分组,并寻找所有的相似点和不同点,这是基本的模式识别。“假设它找到了10个这样的簇,假设我只能承受10次活组织检查。”我们可以选择从每一个集群中测试一个,”Yue说。“这只是一系列步骤中的第一步,当然,这是对多种癌症的研究。”

导师与决策者

雷锋网了解到,无人监督的学习仍然需要人为其发现的数据集群或模式进行评价,它目前更适合通过突出显示可能感兴趣的数据模式来提高人类的表现。但是,有些地方可能很快就会由数据的质量和数量来改变。

 Dittman 说:“我认为,现在人们正在大步跨入自动化,但是人们应该把注意力集中在扩大现有的决策过程上,”“5年后,我们将拥有合适的数据资产,然后你将需要更多的自动化和更少的扩充。”但现在还不是时候。今天,机器学习缺乏可用的数据。它不够细分,宽度上也不够。”

即使机器学习的数据分析变得更加复杂,但我们还不清楚它会怎么改变公司 IT 组织的架构。 Forrester 的 Gualtieri 预计,从现在起五年后,数据科学家的需求就会减少,这种情况就和网页开发人员类似。1995年对网页的Web开发人员的需求远远超过2000年,因为许多网页功能都是自动化并作为模块化脚本出售。他表示,机器学习也可能出现类似的转变,因为软件和服务提供商开始向商业机器学习平台提供应用程序编程接口。

 据雷锋网了解,Gualtieri 预计,企业的“构建或购买”模式将会发生一个简单的变化。他解释说:“今天,你将会做出一个决定,雇佣更多的数据科学家。”随着这些api进入市场,它将转向“购买”,而不是“构建”。他补充说,“我们现在看到了这种情况的开始。”其中有几个例子是“Clarifai”,它是一家位于纽约的初创公司,可以通过视频搜索特定的时刻,比如观看数千个婚礼视频,学习交换戒指的仪式,或者“你可以亲吻新娘”,从图像中确定某人的情绪。

 Dittman 同意 Gualtieri 的观点,公司可能会创建许多专门的脚本来进行机器学习任务的自动化。但他不同意这将导致五年内计算机科学工作的减少。

 Dittman 解释说:“如果你看一下实践数据科学家的数量,那将会大幅增加,但它将会比技术的数字化要慢得多,因为机器学习会进入越来越多的空白领域。“考虑开放源代码趋势,数据科学家工具从代码生成到代码重用,从而开始变得更加容易和易用。

加州理工学院的 Yue 认为,数据科学家的需求将继续上升,因为机器学习的成功将会有更多的机器学习尝试。随着技术的进步,他解释说,越来越多的企业单位将能够利用机器学习,这意味着需要更多的数据科学家来编写这些程序。

从消费者到提供者

推动数据科学家持续需求的部分原因是对数据的渴求,使其更有效。 Gualtieri 看到了一些企业——大约5年之后,也将扮演供应商的角色。他说:“波音可能会成为特定领域机器学习的供应商,并将这些模块卖给那些可能成为客户的供应商。”

宝洁公司的 Dittman 认为,分析数据的两端都是数据,而代码则是高销售的,这可能是企业的一个新的主要收入来源。他解释说:“公司将开始从数据中获利。”“数据行业将会爆炸。数据绝对是爆炸式增长,但缺乏数据策略。获得业务案例所需的正确数据,这往往是一个挑战。”

但 Yue 有不同的顾虑。他说:“五年后,机器学习自然会与法律问题相冲突,我们对歧视,受保护的阶级有很严格的法律。“如果你使用数据算法来决定向谁贷款,你怎么知道这不是歧视性的?这是政策制定者的一个问题。”

 Yue 提供了一个软件的例子,该软件发现了消费者贷款拖欠和那些白人消费者之间的相关性。该软件可以扫描每个客户的眼睛颜色,并使用这些信息来决定是否批准贷款。“如果一个人做出了这个决定,就会被认为是歧视性的,” Yue 说。

这个法律问题说明了数据分析师在无监督机器学习中的核心作用。该软件的工作是找到链接,但它表面上是人来决定如何处理这些链接。不管怎样,人力资源部门需要在相当长的一段时间内招募更多的数据科学家。

本文作者:李雨晨

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-21 18:54:30

机器学习在商业领域大有作为,但还需要跨过数据和政策的难关的相关文章

工程建设领域保证金清理和健康医疗大数据应用政策解读

国务院常务会议分别于6月8日审议通过<关于促进和规范健康医疗大数据应用的指导意见>,6月15日原则通过<关于清理规范工程建设领域保证金的通知>.6月17日,国新办举行政策例行吹风会,住建部副部长易军介绍清理规范工程建设领域保证金有关情况,卫计委副主任金小桃.规划司副司长张锋介绍健康医疗大数据应用有关情况,并答记者问,分别对两项政策的重要意义.政策措施.方法步骤.相关要求等进行了政策解读. 一.关于清理规范工程建设领域保证金相关政策解读 国务院高度重视清理规范工程建设领域保证金工作

Python vs R : 在机器学习和数据分析领域中的对比

  为了鼓励新工具的出现,机器学习和数据分析领域似乎已经成了"开源"的天下.Python 和 R 语言都具有健全的生态系统,其中包括了很多开源工具和资源库,从而能够帮助任何水平层级的数据科学家展示其分析工作. 机器学习和数据分析之间的差异有些难以言明,但二者最主要的不同就在于,比起模型的可解释性,机器学习更加强调预测的准确性;而数据分析则更加看重模型的可解释性以及统计推断.Python ,由于更看重预测结果的准确性,使其成为机器学习的一把利器. R ,作为一种以统计推断为导向的编程语言

圆桌对话:机器学习的商业应用,创业公司并非没有机会 | CCF-GAIR 2017

雷锋网(公众号:雷锋网)消息,7 月 9日,由中国计算机学会( CCF) 主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR全球人工智能与机器人峰会进入了第三天.在机器学习专场,在北京大学深圳研究生院教授邹月娴的主持下,SpeakIn CEO陈昊亮,小视科技副总裁周守业,智齿科技 CTO吴立楠.阿里妈妈精准展示广告技术部的盖坤一起进行了主题为<机器学习的商业应用>的圆桌讨论,几位产业界人士分别从自己的产品出发,讨论了如何将人工智能技术应用于商业,创新创业企业面对巨头的机会,以及企业

友盟也进来玩一下的话,似乎这个领域的变量还没被终结

现在的第三方推送无疑是个推独大,据说已经砍下90%的市场,但如果友盟也进来玩一下的话,似乎这个领域的变量还没被终结. 早在去年6.7月间,友盟就开始筹划推送产品,去年10月对外发布后进入内测状态.而现在友盟方面向我们表示,该产品已结束灰度测试,正式面向所有友盟账号使用者开放.如果我们留意一下,会看到友盟在各大站点投放的广告已经上线,而友盟主页的消息推送入口已经可用.继个推月初发布带有用户分析能力的2.0版本后,友盟也全面杀入这个市场.这意味着,第三方推送已经由此前的广撒网式推送,正式进入基于用户

《外商投资商业领域管理办法》的补充规定

<外商投资商业领域管理办法>的补充规定 为 促进香港.澳门与内地建立更紧密经贸关系,鼓励香港.澳门服务提供者在内地设立商业企业,根据国务院批准的<〈内地与香港关于建立更紧密经贸关系的安排〉 补充协议二>及<〈内地与澳门关于建立更紧密经贸关系的安排〉补充协议二>,现就<外商投资商业领域管理办法> ( 商务部令第 8 号 ) 中的有关香港和澳门服务提供者投资商业领域作出如下补充规定: 一.允许香港.澳门服务提供者设立独资.合资或合作企业经营化肥.成品油.原油的佣

商业巨头是怎么玩转大数据的?

在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大http://www.aliyun.com/zixun/aggregation/13873.html">数据驱动的新生代商业格局淘汰. 最早关于大数据的故事发生在美国第二大的超市塔吉特百货(Target).孕妇对于零售商来说是个含金量很高的顾客群体.但是他们一般会去专门的孕妇商店而不是在Target购买孕期用品.人们一提起Target,往往想到的都是清洁用品.袜子和手纸之类的日常生活用品,却忽视了Target有孕妇

商业巨头是怎么玩转大数据的

在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰. 最早关于大数据的故事发生在美国第二大的超市塔吉特百货(Target).孕妇对于零售商来说是个含金量很高的顾客群体.但是他们一般会去专门的孕妇商店而不是在Target购买孕期用品.人们一提起Target,往往想到的都是清洁用品.袜子和手纸之类的日常生活用品,却忽视了Target有孕妇需要的一切.那么Target有什么办法可以把这部分细分顾客从孕妇产品专卖店的手里截留下来呢? 为此,Targe

Linux还未在数据中心层面取代Unix

Linux还没有在数据中心层面中取代Unix.尽管有Unix服务器厂商整合.但大多数数据中心仍然运行着多个版本的物理Unix服务器. Gabriel Consulting首席分析师Dan Olds称,虽然Linux和Windows的服务器的销量一直在增长,但Unix服务器不会消失.这些Unix系统在大部分企业中也扮演着不可或缺的角色:运行于系统上的关键任务应用是企业正常运营的基石.打个比方说, 虽然小型节能省油的车型在全球热卖,但这并不意味人们就不再需要翻斗车了. 在http://www.ali

大数据与机器学习:实践方法与行业案例.1.2数据平台

1.2数据平台 数据平台是存放分析数据的平台,也是支持大多数数据分析和数据挖掘应用的底层平台,它使用了统一的数据清洗与处理规则,因而可以保证从基础平台上输出的数据内容是一致的. 传统的数据平台基本等同于大家熟悉的"数据仓库",但互联网浪潮让人们对数据采集.存储和应用提出了越来越高的要求,传统数据仓库平台独力难支,因此"现代化"的数据平台是多种数据库产品的融合.图1-3是一个精简化的现代数据平台架构图.   图1-3 数据平台架构示意图 现代的数据平台融合了传统数据仓