机器学习的乐趣与辛劳

很少有人能够发现机器学习在企业应用中的巨大潜能。我非常幸运地在第一份工作的前几个月里,就感受到了机器学习所带来的潜在利益。1995年,信用卡发行方开始使用神经网络模型进行信用卡诈骗的实时监测。一旦信用卡被使用,交易数据则会从销售网点系统传至信用卡发行方所授权的系统,在该系统内,利用神经网络模型进行欺诈概率的判断。如果判断出欺诈的可能性非常高,则会立即拒绝交易。我是开发此种模型的专家,我所交付的第一批模型中,有些就应用于南美银行。模型部署好的第一天,就识别出了之前未探测到的诈骗信息,并已达数百万美元。这可真是令人大开眼界啊。从那时候开始,我便意识到了机器学习在各种应用中的巨大价值,例如,需求预测,故障和异常检测,广告定向,网络评价以及类似于科塔娜的虚拟助手等。通过将机器学习技术嵌入至企业系统中,可以改善客户体验,降低发生系统性故障的风险,增加收入以及能够显著地节约成本。

但是,建立机器学习系统是一个漫长,耗时而且极易出错的过程。即使现如今我们能够处理分析非常庞大的数据集,并且能够以较高的交易速率进行部署,但仍有几个瓶颈问题有待解决:

  • 机器学习系统的开发需要精深的专业知识。虽然机器学习的核心原理已经广为人知,但杰出的数据科学家们仍像二十年前刚工作那般认真刻苦地进行着研究。
  • 从业者们不得不使用各种工具进行数据的收集,清理,整合和分析。这些工具往往入门难,并且综合性差。部署和维护商业性机器学习软件的成本也是较高的。
  • 建立与验证模型需要大量的实验。数据专家们往往受限于计算机的性能和存储容量,因为他们需要运行大量的实验数据,而且还会产生大量的新数据。
  • 软件工具不支持组织实验运行的可扩展性试验与方法。团队合作的实验,以及变量和脚本,都是通过人工进行共享,点对点的。所以,评估和调试统计型模型仍是一大挑战。

数据专家们进行机器学习技术的实验时,能够在此种限制条件下编写定制程序,完成无差别的重任。但是部署阶段则非常困难。将机器学习模型部署到一个关键性的商务程序中,例如实时诈骗防护,或者广告定向等,都需要非常复杂的工程技术:

  • 比较具有代表性的就是,如今线下开发的机器学习模型需要用C++,C#或者Java等开发语言重新实现。
  • 交易数据通道需要重新探究。线下模型中的数据转化和变量都需要被重新编码和编译。
  • 重新实现必然会产生故障,需要验证模型是否能够如最初设计的运行。
  • 必须为模型建立一个带有合适监测器,权值和注册信息的定制容器。
  • 高级部署需要A/B测试,用以并行评估可择模型。还需要一个控制模型进出的开关机制,最好可以避免重新编译和部署整个应用。
  • 必须通过统计测试,验证候选版本的产品模型能如原始设计一样工作。
  • 必须记录系统所作出的自动化决策,以及商务产出,以便于改善机器学习模型的监测功能。
  • 必须具有高可用性的服务,以及端点和端点周围区域的灾难恢复服务。

当服务需要满足更高的交易速率以及/或者低延迟时,则需要更新硬件,还需将服务部署至新机器并向外扩展。

所有的这些都需要经过比较耗时并工程较为密集的步骤。人力和物力的消耗也比较大。端到端的工程建设,以及机器学习技术应用产品的维护,则需要水平较高的技术团队,但很少有组织或企业能够建立并维持这种团队。

微软机器学习云平台Azure则可以解决这些问题:

  • Azure提供的是全托管式的云服务,不需要安装软件,也没有硬件需要管理,更无需考虑系统版本和开发环境等。
  • 只需要使用浏览器,数据专家们则可以登录Azure,开始机器学习模型的开发,没有地域以及设备的限制。Azure几乎可以存储无限量的文件数据。
  • ML Studio,是一个机器学习技术的整合性开发环境。可以根据简单的数据流图建立实验数据,具有简便的模板拖拽和连接功能。数据专家避免了大量的重复性劳动,可以集中精力于实验的设计和迭代。
  • 提供许多实验范本,入门学习较为方便简单。
  • 内置许多由微软研究院开发的多种优秀算法,支持自定义重新编码 。Azure上有超过350种开源R包,可以安全地使用。
  • 数据流图具有可自动并行运行的并行通道,专家们可以执行复杂的实验,无计算约束地进行并行比较。
  • 实验程序可以随时分享,让其他人能够接着完成未完成的工作。

Azure 易于云上开展大规模的产品部署。预先测试过的机器学习模型能够与评分工作流合并,仅仅几步操作,就能生成一个名为REST的新型云托管API(应用程序编程接口)。其具有低延迟响应的特点,并且无需重新实现,也没有端口,这大大优于传统的数据分析软件。互联网上的任何信息,无论是来自笔记本,网站,还是移动设备,可穿戴设备,它们都会被发送至这个新生成的API,并得到预测结果。例如,一位数据专家创建了一个诈骗监测API,输入为交易信息,输出为低/中 /高级别的风险指示。此种API会在云端激活,随时准备好接受调用。API后端具有可伸缩性,所以,当交易频率起伏较大时,Azure的服务器能够自行处理负载量。实际上,Azure并没有限制数据专家们创建和部署的机器学习API的数量,而且,这一切都独立于其设计的。对于工程设计和信息技术来说,通过使用那些REST API,整合一个新的机器学习模型,以及在部署之前对多重模型进行并行测试,都变得较为容易了。而且还具有明显地高灵活性,低成本的特点。Azure在产品中提供了一些调整和管理API的机制,包括测量可用性,延迟和性能的机制。对于企业来说,更快,更低成本,更简易地建立一套稳健,高可用性和高可靠性的机器学习系统会带来巨大的商业利益。

我们相信Azure带来了行业内的巨大改变。它使得机器学习技术在初创企业和大企业中都具有不可思议的潜能。如今,许多原本只能复杂业务使用的性能,初创公司同样能使用。大企业则能挖掘出其大数据中的潜在价值,从而提高效率,获取巨大收益。最重要的是,快节奏地迭代和实验伴随着快速创新,为我们周围所有智能云端设备的发展做好了准备。

在我事业期初的1995年,建立和部署一套信用卡诈骗监测系统需要一个庞大的组织才能完成。如今,借助于如Azure这类的工具和云计算的力量,仅一位杰出的数据专家就能完成相同的任务了。

本文作者:白瑞爷

来源:51CTO

时间: 2024-11-02 00:50:46

机器学习的乐趣与辛劳的相关文章

机器学习:入门方法与学习路径 (附资料)

◆ ◆ ◆ 1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸:也自然而然点开今日头条推给你的新闻:也习惯逛淘宝点了找相似之后货比三家:亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈.恩,这些功能的核心算法就是机器学习领域的内容. 套用一下大神们对机器学习的定义,机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身.简单一点说,就是计算机从数据中学习出规律和模式,以应用在新数据

开始使用机器学习

本文由身行@主题曲(身行) 老师推荐,阿里云组织翻译. 以下为译文 数据科学      数据科学正迅速成为各行业的开发者和管理者的一项重要的技能,它看起来像很多乐趣和.但它很复杂,有很多的工程和分析选项浏览,很难知道你做的是正确的或者空头陷阱的谎言.这个系列(系列节目)我们探索数据科学有意义的方式-了解哪里需要,哪里不需要它.以及如何使它从开发者手中到用户手中,这成为你的优势. 关键点      大多数类型的机器学习项目,结果在一个分类或回归通常采用监督学习方法. 特征工程是大多数机器学习过程的

从Caffe开始深度学习实战,徒手hack代码乐趣更多

从Geoffrey Hinton 2006年的论文算起,这一波深度学习(DL)浪潮才10年,而如果只算国内,深度学习的流行也不过5年,尽管如此,深度学习现在已经扎根中国互联网,成为BAT.京东.360.今日头条等公司的基础技术和战略技术,与之伴随的,则是深度学习技术人员的快速成长,例如,阿里云工程师卜居(赵永科)博客,2014年才开始接触深度学习实战,如今已在深度学习及计算优化方面方面有很独到的见解.卜居在最近写了一本浓缩其深度学习实战经验的书--<深度学习-21天实战Caffe>,该书获得了

《面向机器智能的TensorFlow实践》TensorFlow与机器学习基础

本节书摘来自华章出版社<面向机器智能的TensorFlow实践>一书中的第1章,第节,作者山姆·亚伯拉罕(Sam Abrahams)丹尼亚尔·哈夫纳(Danijar Hafner)[美] 埃里克·厄威特(Erik Erwitt) 阿里尔·斯卡尔皮内里(Ariel Scarpinelli),更多章节内容可以访问"华章计算机"公众号查看. TensorFlow基础 3.1 数据流图简介 本节将脱离TensorFlow的语境,介绍一些数据流图的基础知识,内容包括节点.边和节点依赖

机器学习路线图

                                                    机器学习路线图 1. 引言 最近google的阿尔法狗大战李世石刷屏了,闲下来时也了解点机器学习or深度学习的理论 2. 机器学习关注问题 并非所有的问题都适合用机器学习解决(很多逻辑清晰的问题用规则能很高效和准确地处理),也没有一个机器学习算法可以通用于所有问题.咱们先来了解了解,机器学习,到底关心和解决什么样的问题. 从功能的角度分类,机器学习在一定量级的数据上,可以解决下列问题: 1.分

10 种机器学习算法的要点(附 Python 和 R 代码)(转载)

前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明.更个性化的技术. 也许我们生活在人类历史上最关键的时期:从使用大型计算机,到个人电脑,再到现在的云计算.关键的不是过去发生了什么,而是将来会有什么发生. 工具和技术的民主化,让像我这样的人对这个时期兴奋不已.计算的蓬勃发展也是一样.如今,作为一名数据科学家,用复杂的算法建立数据处理机器一小时能赚到好几美金.但能做到这个程度可并不简单!我也曾有过无数黑暗的日日夜夜

机器学习在崛起:但其算法的结果是否公平?

算法正在通过很多很不可思议的方法控制着我们的生活. 当我在一家当地的熟食柜台取了一个号码牌后,我知道自己到最后肯定会得到相应的服务.因为有一个排队的算法在起作用--这种算法保持着先来先得的点餐模式.即使等待的时间会有差异,但是对于所有顾客来说它总是能达到一个可期待的平均服务时间. 举另一个例子进行对比,当我购买了一张彩票时,我将我的机会赋予了一个随机抽签的算法,但是结果很可能不会是我预想的那样.要赢得彩票不仅仅是一件不确定的事情,而且还不太可能.但是对于很多人来说,购买彩票本身这件事件就可以带给

使用Weka快速实践机器学习算法

[译者注]在当下人工智能火爆发展的局面,每时每刻都有新的技术在诞生,但如果你是一个新手,Weka或许能帮助你直观.快速的感受机器学习带来的解决问题的新思路. Weka使机器学习的应用变得简单.高效并且充满乐趣.它拥有图形界面,并且允许你加载自己的数据集,运行算法并且产生足够可靠.让人信服的结果. 我把Weka推荐给机器学习的新手,因为它帮助我们把精力集中在机器学习应用的本身,而不是陷入数学和编程的泥潭.这些技能可以在后续的学习中逐渐掌握. 本文将一步步告诉你如何加载数据集,运行高级的分类算法并且

专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费

2017杭州云栖大会详情请戳这里! 黄波,微博机器学习平台技术负责人.资深架构师,负责微博机器学习平台和Feed算法系统.他毕业于中科院计算所,参与研究了高性能计算和算法优化:并曾供职于百度,参与开发了分布式文件系统.2010年加入新浪微博,目前专注于机器学习.深度学习.高性能计算.大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流.推荐.反垃圾等业务场景. 跬步千里,微博深入应用新兴技术 新浪对于大数据和人工智能技术的应用,最早可以追溯