机器学习时代的到来,企业该如何驾驭

为了成为一个机器学习公司,你需要工具和流程去克服数据、工程和模型方面的挑战。

在过去的这些年,为了构建基础设施,数据社区专注于聚集和收集数据,并使用数据来改进决策。我们现在可以看到,对先进的分析和机器学习的兴趣在许多行业的垂直方领域上激增。

在这篇文章中,我分享了我去年9月在纽约Strata Data 公司发布的一篇演讲中的幻灯片和笔记,为大家提供一些对增强公司机器学习能力的建议。这些信息来自于在许多不同的问题领域中,应用机器学习的前沿的实践者、研究人员和企业家的对话。

 

 

与其他技术或方法一样,一个成功的机器学习项目从确定正确的用例开始。例如,机器学习推荐和减少客户流失的应用有很多,但对于应用程序来说,一个有用的分类有如下几点:

1.提高决策的应用程序

2.改进商业运营的应用程序

3.产生收入的应用程序

4.可以帮助预测或防止欺诈或风险的应用程序

 

 

为了成为一个“机器学习公司”,当你开始构建模型时,首先你要熟悉你将要面对的关键障碍是什么。如果你咨询主要的从业者,通常会有三件事:

1.数据:现在大多数应用都依赖于监督学习,所以一切都从质量良好的标记(训练)数据集开始。

2.工程:你如何使用一个原型并生产它?在部署到生产环境之后,如何监视模型?

3.模型:虽然现代的机器学习库使你更容易将模型与你的数据匹配,但仍然存在一些挑战

在这篇文章的剩余部分,我将讲解如何面对这些挑战。

 

 

 

在构建用于训练机器学习模型的标记数据集时,使用已访问的数据非常重要。随着新的数据源不断地出现在网络上,对大多数公司来说,数据集成是一项正在进行的工作——你目前对数据基础设施的投资甚至可以让你获得足够的数据来启动。你还可以使用公开的(开放的)数据或你可以从第三方提供商购买的数据来丰富现有的数据集。

 

 

好消息是机器学习社区意识到训练数据是一个主要的瓶颈。所以研究人员一直致力于那些让你从较少的训练数据(弱监督)开始或者允许你将一个问题中得到的知识用于另一个环境(转移学习)的研究。

 

随着数据越来越重要,有一些初创公司和公司在探索数据交换。数据交换使组织可以在保护隐私和机密的同时共享一些数据。同时,也有一些类似的研究,致力于开发安全的机器学习算法。在消费者金融领域存在应用欺诈检测,例如,如果隐私和安全能够得到保证,那么在机密数据上共享学习可能是有价值的。

 

今年早些时候,我们观察到,公司开始在构建机器学习模型和监控他们的行为方面创造了一个新的角色。但是机器学习工程师的新角色真的是必要的吗?

 

对于越来越多的公司来说,答案是:是的,这样的专家很需要。如果你创建了一个你需要知道的关于生产和监控模型的清单,那么你将得到一组广泛的工具和技术。

 

机器学习的研究正在飞速发展。公平地说,大多数公司都无法跟上研究人员发布的所有新技术和新工具。想象以下的实验:在接下来的五年里,进展会停滞不前(非常不可能,自我幽默一下)。我认为,有足够的工具可以让公司在很长一段时间里保持忙碌。

 

 

深度学习,一种已经成功应用于计算机视觉和语言问题的技术。大多数公司仍处于将深度学习应用于熟悉的数据类型(文本、时间序列、结构化数据)或使用它来替换现有模型(包括它们当前推荐系统)的早期阶段。我希望在接下来的几年里能看到许多有趣的,涉及到深层神经网络(DNN)的案例研究,。

 

随着关于深度学习的所有激动人心的一面,我们有时会忘记有很多有趣的,不依赖于神经网络的新数据应用。

随着模型被推向先进设备,我对最近在协作学习方面的工作感到兴奋。展望人工智能,在线学习和持续学习的工具将是必不可少的。

 

 

数据社区开始认识到,除了优化定量或业务指标之外,还需要更多的模型。模型是否强大到能抵御对抗性攻击?在某些应用程序模型中必须是可解释和可理解的。

公平:你了解你的训练数据的分布情况吗?如果你不了解,请注意过去的忽视可能会导致未来的忽视。

透明度:随着机器学习变得越来越流行,用户对那些被最优化的计量机构的了解和发言权越来越感兴趣。 

 

尽管近年来这一领域取得了很大进展,但研究人员和理论家们仍不清楚这一点。我们仍然处在一个“试错”的时代。深度学习可能减少了对人工特征工程的需求,但是仍然有很多决策倾向于建立一个DNN(包括网络架构和许多超参数的选择)。

 

 

 

我们可以把模型构建看作是探索机器学习算法的空间。企业需要能够以一种有原则和高效的方式进行探索。这意味着维护可重复的管道,从实验中节省元数据,协作工具,并利用最近的研究成果。

 

 

那么,公司在做什么来让这种探索成为可能呢?大多数机器学习都需要标记(训练)数据,因此任何平台都从输入数据存储系统的强大数据管道开始,数据科学家和机器学习工程师可以访问这个数据存储系统。对于所有公司来说,数据集成是一项重要的、持续的练习。

 

公司还允许数据科学家共享特征和生成这些特征的数据管道。让你了解特性的相对重要性:让公司告诉你他们使用的是什么算法通常会容易得多;而要让他们描述什么对他们的模型是最重要的,则困难得多。

 

领先的公司让他们的数据科学家使用几个机器学习库。强迫你的数据科学家使用一两个“开发中的”库是很疯狂的。他们需要能够进行实验,这可能意味着让他们使用各种各样的库。

 

有些公司为生产机器学习模型提供工具,并在部署后监控它们。公司还在使用开源技术构建自己的部署和监控工具。如果你正在寻找一个用于模型部署和监控的开源工具,Clipper是加州大学伯克利分校的崛起实验室的一个新项目,它现在可以让你轻松地部署使用几个流行的机器学习库编写的模型。更重要的是,Clipper团队很快就添加了模型监控。(几家公司将在2018年3月的Strata Data San Jose,描述他们如何实现模型部署和监控)。

 

要成为一个“机器学习公司”,你需要工具和流程来克服数据、工程和模型方面的挑战。公司刚刚开始在他们的产品中使用和部署机器学习。工具仍在不断完善,最佳实践才刚刚开始出现。

 

 

作者介绍:Ben Lorica 是O'Reilly Media的首席数据科学家,同时也是Strata Data 会议和O'Reilly Artificial Intelligence 会议的项目负责人。

 

 

原文网址:

https://www.oreilly.com/ideas/how-companies-can-navigate-the-age-of-machine-learning

 

时间: 2024-08-22 23:15:30

机器学习时代的到来,企业该如何驾驭的相关文章

微信营销时代的到来,不少企业争先恐后的进入微信公众账号平台

微信营销时代的到来,不少企业争先恐后的进入微信公众账号平台,打造自身企业的微信营销平台,可企业微信应该如何去运营呢?应该注重哪些事情.避免哪些误区,下面由本文作者王威龙讲解一下运营企业微信平台的实战经验.首先我们先来了解一下企业微信营销的误区. 企业微信营销的误区: 1.注重粉丝数量:粉丝不代表营销能力,粉丝仅仅是一个数量,用户的价值才是微信营销的核心,所以建议企业微信不要一味的为添加粉丝而添加; 2.机器人陪聊=用户互动:有的童鞋认为提供机器人聊天,就是和用户的互动,这必然是错的.人工回复是有

深圳安防企业 集体认同时代何时到来?

现在安防市场越来越成熟,安防产品除了自身质量可靠之外,还必须培养自己的产品粉丝.如果一家安防企业的产品没有知名度,客户都没了解过,当然是买都不敢买,所以现在的深圳安防企业,需要对品牌进行持续的孵化.深圳这个地方,需要自己的安防品牌. 在深圳安防企业里,有这样的一个群体:他们开着豪车,大腹便便,开口大笑时,烟嗓格外沙哑和厚重,脸上有历经沧桑的豁达,也有纵横捭阖的谨慎,他们有人来自曾经安防工厂的流水线,有人出身底层的销售,英雄不问出处,但比起江浙一带的儒商,他们的身上确实有草莽英雄的痕迹! 沦落成羔

互联网营销时代已经到来,老板不懂阻碍企业快速成长

 互联网营销时代已经到来,很多中小微企业正由传统营销逐步转战互联网营销.我国的东南沿海城市,如杭州本地从事网络营销的中小微企业比例占到企业总数的近一半,从事网络营销的企业中利用网络赚到钱的企业占到一半比例.一些中小微型企业由于缺乏先天的网络营销气氛和网络营销成功案例的榜样效应,真正从事网络营销的企业所占比重不高,也有部分企业没意识到网络营销对传统实体的冲击.正在从事网络营销的企业有存在这样或那样的误区,走了不少弯路,严重阻碍了企业快速成长. [误区] 著名网络营销专家.中国电子商务协会网络营销推

内存计算时代已经到来

有几次当我们的团队走过街边的夜市,看到地上摆着的各种各样的小商品,有iPhone的贴膜.手机外壳,当然还有各种内存条和8G/16GB 的小优盘等,这时候总会有人喊出一句:"看!内存计算时代已经到来!"虽然这不能准确地表达内存计算时代已经到来,但是这基本上也说明了一个现象.在内存容量和CPU速度已经不再成为问题的时代,我们的传统计算架构是否应该有新的变化? 或许有人说内存计算技术,或者内存数据库本来就不是一个新话题.确实如此,就像从手持移动设备不断地更新中我们也能看到同样的历史.大家用了

六年亲历,见证中国大数据技术与应用时代的到来

转自:http://www.csdn.net/article/2013-09-30/2817098-big-data-technology-conference-dec 六年亲历,见证中国大数据技术与应用时代的到来 发表于2013-09-30 09:39|8875次阅读| 来源CSDN|34 条评论| 作者郭雪梅 BDTCHBTC大数据Hadoop 摘要:08年至今,六年的时光,伴随技术大会的发展,我们亲历和见证了中国大数据技术与应用时代的到来!第七届中国大数据技术大会(Big Data Tec

大数据时代已经到来,你了解吗?

一.大数据出现的背景 进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.它已经上过<纽约时报><华尔街日报>的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告. 数 据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识 到数据对企业

随着HTML5的普及,定制化的移动CRM应用时代即将到来

 近年来,移动CRM应用异常火爆,大多为原生APP形式,且大部分产品不支持定制.对于很多用户来讲,已经不再满足于只是有一个移动端CRM了,更希望用上根据自身业务流程定制的移动CRM.     在移动端,用原生APP进行这样的纯个性化定制的成本是很高的.但使用HTML5就变得很容易了,HTML5的特点是跨平台.跨设备一次开发,多处使用,用户无需下载,瞬间打开,用户无需升级,永远最新,无需经过应用商店发布.     当然,HTML5也有它的局限性,比如,使用CSS样式或者CSS动画的用户体验无法与原

分析:云计算时代即将到来

本文讲的是分析:云计算时代即将到来,[IT168 资讯]虽然最近一次对企业技术专家所做的调查显示,65%的人暂时还没有将IT功能迁移到云中的打算,但是我们认为这种情况很快就会发生改变. 这只是一个演化过程.现在我们的生活中到处可见电视.笔记本电脑和智能手机等因特网的衍生物,这意味着企业级用户至少会使用两到三种不同的这些设备,但是当他们尝试对异构环境和操作系统进行信息同步的时候去遇到了不少麻烦.他们只是希望在需要的时候能够访问到所需的应用和数据. 云计算厂商成功地利用了SaaS服务.网格计算.虚拟

在云时代 场景化PaaS时代已经到来?

1960年,斯坦福大学的科学家 John McCarthy 表示:"有朝一日计算很有可能会成为一种公共资源." 这是云计算概念的第一次被提及. 现在几乎每个人都可以平等的搜索使用和分享各种各样的信息,大数据的概念也开始渐渐被人们所熟知,当然这些都得益于云计算的发展和普及. 传统互联网时代, 自给自足的硬件基础 互联网发展初期,"网站" 成为互联网内容构成的主体,当时互联网需要解决的是信息的匮乏."门户" 成为当时 "内容为主.服务为辅&