何谓机器学习?

       最近我和一对夫妇共进晚餐,他们问我从事什么职业,我回应道:“机器学习。”妻子回头问丈夫:“亲爱的,什么是机器学习?”她的丈夫答道:“T-800型终结者。”在《终结者》系列电影中,T-800是人工智能技术的反面样板工程。不过,这位朋友对机器学习的理解还是有所偏差的。机器学习能让我们自数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。它既不是只会徒然模仿的机器人,也不是具有人类感情的仿生人。

       现今,机器学习已应用于多个领域,远超出大多数人的想象,下面就是假想的一日,其中很多场景都会碰到机器学习:假设你想起今天是某位朋友的生日,打算通过邮局给她邮寄一张生日贺卡。你打开浏览器搜索趣味卡片,搜索引擎显示了10个最相关的链接。你认为第二个链接最符合你的要求,点击了这个链接,搜索引擎将记录这次点击,并从中学习以优化下次搜索结果。然后,你检查电子邮件系统,此时垃圾邮件过滤器已经在后台自动过滤垃圾广告邮件,并将其放在垃圾箱内。接着你去商店购买这张生日卡片,并给你朋友的孩子挑选了一些尿布。结账时,收银员给了你一张1美元的优惠券,可以用于购买6罐装的啤酒。之所以你会得到这张优惠券,是因为款台收费软件基于以前的统计知识,认为买尿布的人往往也会买啤酒。然后你去邮局邮寄这张贺卡,手写识别软件识别出邮寄地址,并将贺卡发送给正确的邮车。当天你还去了贷款申请机构,查看自己是否能够申请贷款,办事员并不是直接给出结果,而是将你最近的金融活动信息输入计算机,由软件来判定你是否合格。最后,你还去了赌场想找些乐子,当你步入前门时,尾随你进来的一个家伙被突然出现的保安给拦了下来。“对不起,索普先生,我们不得不请您离开赌场。我们不欢迎老千。” 下图集中展示了使用到的机器学习应用。

上图机器学习在日常生活中的应用,从左上角按照顺时针方向依次使用到的机器学习技术分别为:人脸识别、手写数字识别、垃圾邮件过滤和亚马逊公司的产品推荐

上面提到的所有场景,都有机器学习软件的存在。现在很多公司使用机器学习软件改善商业决策、提高生产率、检测疾病、预测天气,等等。随着技术指数级增长,我们不仅需要使用更好的工具解析当前的数据,而且还要为将来可能产生的数据做好充分的准备。

传感器和海量数据

虽然我们已从互联网上获取了大量的人为数据,但最近却涌现了更多的非人为数据。传感器技术并不时髦,但如何将它们接入互联网确实是新的挑战。有预测表明,20%的互联网非视频流量都将由物理传感器产生。

地震预测就是一个很好的例子,传感器收集了海量的数据,如何从这些数据中抽取出有价值的信息是一个非常值得研究的课题。1989年,洛马·普列埃塔地震袭击了北加利福尼亚州,63人死亡,3757人受伤,成千上万人无家可归;然而,相同规模的地震2010年袭击了海地,死亡人数却超过23万。洛马·普列埃塔地震后不久,一份研究报告宣称低频磁场检测可以预测地震, 但后续的研究显示,最初的研究并没有考虑诸多环境因素,因而存在着明显的缺陷。如果我们想要重做这个研究,以便更好地理解我们这个星球,寻找预测地震的方法,避免灾难性的后果,那么我们该如何入手才能更好地从事该研究呢?我们可以自己掏钱购买磁力计,然后再买一些地来安放它们,当然也可以寻求政府的帮助,让他们来处理这些事。但即便如此,我们也无法保证磁力计没有受到任何干扰,另外,我们又该如何获取磁力计的读数呢?这些都不是理想的解决方法,使用移动电话可以低成本的解决这个问题。

地震示意图

现今市面上销售的移动电话和智能手机均带有三轴磁力计,智能手机还有操作系统,可以运行我们编写的应用软件,十几行代码就可以让手机按照每秒上百次的频率读取磁力计的数据。此外,移动电话上已经安装了通信系统,如果可以说服人们安装运行磁力计读取软件,我们就可以记录下大量的磁力计数据,而附带的代价则是非常小的。除了磁力计,智能电话还封装了很多其他传感器,如偏航率陀螺仪、三轴加速计、温度传感器和GPS接收器,这些传感器都可以用于测量研究。

移动计算和传感器产生的海量数据意味着未来我们将面临着越来越多的数据,如何从海量数据中抽取到有价值的信息将是一个非常重要的课题。

 机器学习非常重要

 在过去的半个世纪里,发达国家的多数工作岗位都已从体力劳动转化为脑力劳动。过去的工作基本上都有明确的定义,类似于把物品从A处搬到B处,或者在这里打个洞,但是现在这类工作都在逐步消失。现今的情况具有很大的二义性,类似于“最大化利润”,“最小化风险”、“找到最好的市场策略”......诸如此类的任务要求都已成为常态。虽然可从互联网上获取到海量数据,但这并没有简化知识工人的工作难度。针对具体任务搞懂所有相关数据的意义所在,这正成为基本的技能要求。正如谷歌公司的首席经济学家Hal Varian所说的那样:

“我不断地告诉大家,未来十年最热门的职业是统计学家。很多人认为我是开玩笑,谁又能想到计算机工程师会是20世纪90年代最诱人的职业呢?如何解释数据、处理数据、从中抽取价值、展示和交流数据结果,在未来十年将是最重要的职业技能,甚至是大学,中学,小学的学生也必需具备的技能,因为我们每时每刻都在接触大量的免费信息,如何理解数据、从中抽取有价值的信息才是其中的关键。这里统计学家只是其中的一个关键环节,我们还需要合理的展示数据、交流和利用数据。我确实认为,能够从数据分析中领悟到有价值信息是非常重要的。职业经理人尤其需要能够合理使用和理解自己部门产生的数据。”
——McKinsey Quarterly,2009年1月


原文发布时间为:2013-09-06


时间: 2024-08-31 14:37:53

何谓机器学习?的相关文章

面向机器学习的自然语言标注.

面向机器学习的自然语言标注 James Pustejovsky & Amber Stubbs 著 邱立坤 金澎 王萌 译 图书在版编目(CIP)数据 面向机器学习的自然语言标注 / (美) 詹姆斯·普斯特若夫斯基(James Pustejovsky),安伯·斯塔布斯(Amber Stubbs)著:邱立坤,金澎,王萌译. -北京:机械工业出版社, 2017.1 (O'Reilly精品图书系列) 书名原文:Natural Language Annotation for Machine Learnin

面向机器学习的自然语言标注导读

前言 本书的读者是那些使用计算机来处理自然语言的人.自然语言是指人类所说的任何一种语言,可以是当代语言(如英语.汉语.西班牙语),也可以指过去曾经使用过的语言(如拉丁语.古希腊语.梵语).标注(annotation)是一个过程,它通过向文本中加入元数据来增强计算机执行自然语言处理(Natural Language Processing, NLP)的能力.特别地,我们考察如何通过标注将信息加入自然语言文本中以便改善机器学习(Machine Learning,ML)算法(一组设计好的计算机程序,它从

“机器学习”三重门,“中庸之道”趋若人(深度学习入门系列之四)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 系列文章: 一入侯门"深"似海,深度学习深几许(深度学习入门系列之一) 人工"碳"索意犹尽,智能"硅"来未可知(深度学习入门系列之二) 神经网络不胜语,M-P模型似可寻(深度学习入门系列之三) -------------------------------- 在前一个小节中,我们简单地谈了谈什么是"M-P神经元模型",顺便用生活中生动的小案

《Python数据科学实践指南》——0.1节何谓数据科学

0.1 何谓数据科学 在家用计算机普及之前,数学.逻辑学.哲学及自然科学研究的目的都是为了追求完美的理论证明,或者是提供某种确定性的规则,用以解释某种自然现象,或者为某些技术提供理论依据.那个时候人类产生数据的能力和收集数据的能力还很有限,或许公司的经营账目和计算导弹发射弹道的演算纸就属于数据最集中的地方了.在那个年代,这些数据分析和处理的工作大都是由人工完成的,最多也只会借助某些由机械或电子构成的计算装置罢了.在互联网兴起之后,人类将现实世界中的很多信息以数据的形式存储到网络空间中,比如生活中

《Python数据科学实践指南》——第0章 发现、出发 0.1 何谓数据科学

第0章 发现.出发 最近一年里,知乎社区有不少朋友邀请我回答关于数据挖掘的问题,其中提问最多的是关于"如何改行做数据挖掘".我想他们之所以邀请我回答这类问题,不是因为我做数据挖掘做得好,而是好奇我是如何改行做数据挖掘的?说来也巧,我本科是学电子的,研究生是学控制的,而我的职业理想是成为一个"先知",但我并不知道如何才能实现这一职业理想.自公元632年人类最后一位先知默罕默德去世之后,将近1400年没人做先知了,既没有人可以指导我,也没有可以效仿的对象.2011年到2

专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费

2017杭州云栖大会详情请戳这里! 黄波,微博机器学习平台技术负责人.资深架构师,负责微博机器学习平台和Feed算法系统.他毕业于中科院计算所,参与研究了高性能计算和算法优化:并曾供职于百度,参与开发了分布式文件系统.2010年加入新浪微博,目前专注于机器学习.深度学习.高性能计算.大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流.推荐.反垃圾等业务场景. 跬步千里,微博深入应用新兴技术 新浪对于大数据和人工智能技术的应用,最早可以追溯

PAI分布式机器学习平台编程模型演进之路

什么是PAI? PAI的全称是Platform of Artificial Intelligence,主要在使用机器学习做模型训练时提供整套链路.机器学习即服务,把机器学习作为服务对外推出,大家可以在平台上使用比较先进的机器学习算法.将多种深度学习框架集成到PAI中,同时基于深度学习框架包装成更加易用的组件.具备异构的计算服务能力,把CPU计算能力和GPU计算能力统一调度起来,异构的计算能力透明,大家的注意力是哪些机器学习算法可以帮助业务,不用关心底层资源的申请和分配.PAI也支持在线预测服务,

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow.Caffe.MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.aliyun.com/product/learn [新手必读,请务必要开通OSS和MaxCompute]https://tianchi.aliyun.com/compe