从机器学习到学习的机器,数据分析算法也需要好管家


图为IBM大数据与分析事业部全球研发副总裁Dinesh Nirmal。

今年是莎士比亚逝世四百周年。在莎翁名剧《尤利乌斯·凯撒》中一个占卜师有这样一句没有上下文的预言:“请小心‘三月’中”, 凯撒听后不知道这句话是何意思,于是说让这个占卜师继续做梦吧。结果在三月十五日,凯撒被密谋暗杀。类似的,今天的预测算法可以告诉你一个预言,但却无法提供合适的上下文,这让人难以做出进一步行动的决策。

另一个关于预测算法的例子是在最新的《复仇者联盟3》中,出现了一个人工智能合成物“奥创”。奥创只能按字面理解任务,于是把“拯救地球”理解成了“杀死所有的人类”。这就像一个典型的预测算法,按字面理解任务而忽略掉了其它的可能性或任务的现实意义。

于是,2016年1月,哈佛商学院教授Michael Luca、经济学教授Sendhil Mullainathan以及康奈尔大学教授Jon Kleinberg联合在《哈佛商业评论》发表了一篇题为《算法也需要管家》的文章,呼吁全球科技界和商界在机器学习算法和人工智能时代要注意算法的管理问题。因为,如果有一天,算法能够决定“凯撒”或地球的命运,那么谁来管理算法呢?

IBM大数据与分析事业部全球研发副总裁Dinesh Nirmal最近现身在北京举办的2016机器学习和行业应用国际峰会,他介绍了IBM作为全球大数据分析、机器学习和人工智能的前沿科技企业将如何面对一个复杂的算法世界,这就为机器学习造一个可以自学习、自调整、自优化的机器管家——基于Spark的机器学习云服务。

Apache Spark是一个分布式计算框架,是专为满足低延迟任务和内存数据存储而优化的开源大数据系统。由于其并行计算性能以及兼顾速度、可扩展性、内存处理以及容错性等,再加上可大幅简化编程的丰富API,让Spark成为了机器学习算法的主流计算平台。IBM在2015年6月宣布加入Spark开源社区,并承诺将把Spark作为自己的分析与商务平台核心。

2016年6月开始,IBM花了5个月时间开发了基于Spark的机器学习云服务,该云服务将提供公有云、本地部署及混合云部署等版本,该云服务还可部署在IBM大型主机z系列上。Dinesh强调,该云服务除了在获取数据、抽取特征、训练模型、部署模型、做出预测等经典机器学习过程中进行优化外,还加入了持续反馈、自动建模、重新训练模型等自动化管理。

在自动建模中,IBM的机器学习云服务能够根据数据模型自动推荐最优算法,并根据数据特征值来评价模型的性能和表现,当模型训练好后可在实时环境、生产环境和离线批量环境中部署模型。当数据变化后,该云服务还能实时监控模型的表现,然后自动重新训练模型。整个过程中不需要把模型离线训练后再重新上线,极大方便了实时生产环境中的商业应用。

Dinesh认为,在机器学习的世界里,开源是一个大趋势。为此,IBM开源了自己的重量级机器学习框架SystemML,并在旧金山设立Spark技术中心,还在全球投入超过3500名IBM研究和开发人员开展与Spark相关项目。2016年6月,IBM把自己的开源软件与基于Apache Spark的H2O、RStudio、Jupyter Notebooks等开源科研分析交互环境相结合推出了Data Science Experience云服务,以提升数据科学家的机器学习和数据分析速度。

为了进一步加强自己的数据分析产品和技术生态圈,IBM从2015以来为Apache Toree、EclairJS、Apache Quarks、Apache Mesos、Apache Tachyon(现更名为Alluxio)等开源项目做了大量贡献,也为Apache Spark的子项目如SparkSQL、SparkR、MLLib和PySpark等做了深入贡献。如今,Spark已经与IBM的Watson、商务、分析、系统和云等超过45种核心产品相结合。

IBM对于Spark的投入已经超过3亿美金,并把Spark视为数据分析的操作系统。推出基于Spark的机器学习云服务是IBM的最新进展,是为了给机器学习算法提供一个安全、高可靠的统一管理平台。在此基础之上,IBM进一步把Watson用于机器学习,让人工智能帮助机器学习算法更“聪明”地理解人的意图,这就是刚推出的Watson数据平台。

Dinesh介绍说IBM正在把所有的机器学习、人工智能、数据分析、数据管理等整合起来到一个统一的基于Spark的平台上,这包括开源的算法以及IBM自有的算法等,再经过优化和配备企业级解决方案,最终以混合云方式为企业打造一个可以自由选择的数据与算法管理平台。

2017年,我们将迎来一个移动互联网大发展的大时代,数据与算法将更加容易地“统治”世界。从在线音乐、在线游戏、在线广告到各类生活服务、社交沟通以及内容消费等,机器学习算法在不知不觉中替人们做了很多选择。因此在欢呼机器解放人类的同时,也要警惕算法带来的“偏见”,这就需要能够自学习、自校正的机器。

从机器学习到学习的机器,这是人工智能商业化道路上的必经之路。

本文作者:宁川

来源:51CTO

时间: 2024-10-31 08:36:30

从机器学习到学习的机器,数据分析算法也需要好管家的相关文章

一文读懂机器学习,大数据/自然语言处理/算法全有了……

作者:计算机的潜意识 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践.这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核.当然,本文也面对一般读者,不会对阅读有相关的前提要求. 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前.相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者

《深度学习导论及案例分析》一1.3深度学习的模型和算法

1.3深度学习的模型和算法 深度学习亦称深度机器学习.深度结构学习.分层学习,是一类有效训练深层神经网络(Deep Neural Network,DNN)的机器学习算法,可以用于对数据进行高层抽象建模.广义上说,深层神经网络是一种具有多个处理层的复杂结构,其中包含多重非线性变换.如果深度足够,那么多层感知器无疑是深层网络,前馈神经网络也是深层网络.基本的深层网络模型可以分为两大类:生成模型和判别模型.生成是指从隐含层到输入数据的重构过程,而判别是指从输入数据到隐含层的归约过程.复杂的深层结构可能

技术大牛带你走向机器学习“正道”:小朋友才迷信算法,大人们更重视工程实践

雷锋网按:"算法"这两字在人工智能圈已然成为"高大上"的代名词,由于不少在校生和职场新人对它的过度迷恋,多名 AI 资深人士均对这一现象表示担忧.李开复曾这样说到: 现在的 AI 科学家大部分是在科研环境中培养出来的,不但欠缺工程化.产品化的经验,而且对于错综复杂的商业环境也并不熟悉,更缺乏解决实际问题所必须的数据资源. 随着开源框架层出不穷,人工智能产品化和商业化进程不断加速,使得算法的门槛逐渐降低,但对工程的要求不断在提高.这种情况下,实际应用和工程能力基础扎实

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述 在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵: 其中k为分解成低维的维数,一般远比m和n小.如果大家对FunkSVD算法不熟悉,可以复习对应的原理篇. 2. Spark推荐算法类库介绍 在Spar

深度学习和拓扑数据分析的六大惊人之举

假如你有一个一千列和一百万行的数据集.无论你从哪个角度看它--小型,中型或大型的数据--你不可能看到它的全貌.将它放大或缩小.使它能够在一个屏幕里显示完全.由于人的本质,如果能够看到事物的全局的话,我们就会有更好的理解.有没有办法把数据都放到一张图里,让你可以像观察地图一样观察数据呢? 将深度学习与拓扑数据分析结合在一起完全能够达到此目的,并且还绰绰有余. 1.它能在几分钟内创建一张数据图,其中每一个点都是一个数据项或一组类似的数据项. 基于数据项的相关性和学习模式,系统将类似的数据项组合在一起

IBM Accelerator for Machine Data Analytics(一)加速机器数据分析

机器数据分析是一项紧迫的商业需要 半数财富 500 强公司每年都会经历超过 80 小时的系统宕机时间.如果均匀分到全年,每天大约有 13 分钟的宕机时间.尽管宕机不可能每天都发生,但有可能在一周后出现 1.5 小时的宕机,或者在一个月后出现 6 小时的宕机. 作为用户,在线银行操作的频繁不可用令人非常烦恼.作为业务所有者,当系统宕机时,所有流程都会停滞.正在执行的工作被中断,且无法满足 SLA,合同债务可能导致昂贵的费用.负面的公众形象,以及失去当前和潜在的未来客户.最终,如果无法提供可靠而又稳

阿里云机器学习平台使用——协同过滤推荐算法快速应用

标签: 数加 概述 PAI机器学习平台是构建在阿里云ODPS计算平台之上,集数据处理.建模.离线预测.在线预测为一体的机器学习平台. 该平台为算法开发者提供了丰富的MPI.PS.BSP等编程框架和数据存取接口,同时为算法使用者提供了基于Web的IDE+可视化实验搭建控制台.平台目前整合了阿里集团内最先进的算法,为用户提供算法服务. 今天做了一件事情来体验PAI,就是拿最经典的电影推荐场景来做协同过滤算法的测试. 数据准备 电影数据来源于http://grouplens.org/datasets/

真正的利用人性弱点懒惰应当是让机器和算法去尽量替代人类

摘要: [核心提示] 真正的利用人性弱点懒惰应当是让机器和算法去尽量替代人类,让生活变得更加智能化更加自动化,而不是让人本身变得更加懒惰. 互联网的一些事 三年前,极客公园有一 [核心提示] 真正的利用人性弱点懒惰应当是让机器和算法去尽量替代人类,让生活变得更加智能化更加自动化,而不是让人本身变得更加懒惰. 互联网的一些事 三年前,极客公园有一个利用人性弱点的互联网系列观察文章,依次从"贪婪"."色欲"."虚荣"."窥视".&

android 代码实现学习中艾宾浩斯遗忘曲线算法

问题描述 android 代码实现学习中艾宾浩斯遗忘曲线算法 有没有关于Android开发学习软件中,实现关于记性.复习使用艾宾浩斯遗忘曲线的?求解? 解决方案 参考:http://baike.baidu.com/link?url=8ugxF94oSkAptHnqVRhIjNRQwQKYkWAcCLysn1Cs0lXRpihSgdMEgQ8YwtK1wEnmyGMTVYfcNlIjbkmF6OnPTTffPyPuJUGdtfcuxtGZPjcALtDuWuyiQkhnJFNr0PeSt74mnO