机器学习算法究竟是什么?

机器学习是大数据能够给组织带来智能运营的关键组成部分。尽管机器学习算法趣味无穷,但技术本身很快就会变得复杂起来。所有人不可能都成为数据科学家,但IT专业人士需要了解我们的机器是如何学习的。

揭开神秘的算法

我们越来越多地看到机器学习在实用和可实现的目标上的价值,例如针对数据寻找可用的模式然后进行预测。通常,这些预测模型用于操作流程以优化决策过程,但同时它们也可以提供关键的洞察力和信息来报告战略决策。

机器学习的基本前提是算法训练,提供特定的输入数据时预测某一概率区间内的输出值。请记住机器学习的技巧是归纳而非推断——与概率相关,并非最终结论。

构建这些算法的过程被称之为预测建模。一旦掌握了这一模型,有时就可以直接对原始数据进行分析,并在新数据中应用该模型以预测某些重要的信息。模型的输出可以是分类、可能的结果、隐藏的关系、属性或者估计值。

机器学习技术通常预测的是绝对值,比如标签、颜色、身份或者质量。比如,某个主题是否属于我们试图保留的用户?用户会付费购买吗?用户会积极响应邀约吗?

如果我们关心的是估算值或者连续值,预测也可以用数字表示。输出类型决定了最佳的学习方法,并会影响我们用于判断模型质量的尺度。

谁对机器学习方法进行监督?

机器学习方法可以是有人监督也或者是无人干预的。区别不在于算法是否可以为所欲为,而是是否要从具备真实结果的训练数据中学习——预先确定并添加到数据集中以提供监管——或者尝试发现给定数据集中的任何自然形态。大多数企业使用预测模型,对训练数据使用监督方式,而且通常旨在预测给定实例——邮件、人员、公司或者交易是否属于某个有趣的分类——垃圾邮件、潜在买家、信用良好或者获得后续报价。

如果在开始之前你不是很清楚在寻找什么,那么无人干预的机器学习方法能够提供全新的洞察力。无人干预的学习还能够生成集群与层次结构图,显示数据的内在联系,还能够发现哪些数据字段看起来是独立的,哪些是规则描述、总结或者概括。反过来,这些洞察能够为构建更好的预测方法提供帮助。

构建机器学习模型是一项反复练习的过程,需要清理数据和动手实验。目前市场上正在涌现一些自动和有向导的模型工具,它们承诺降低对数据科学家的依赖性,同时在常见领域获得最高的投资回报率。然而这里面真正的差别很可能需要你自己去发现。

原文发布时间为:2015年07月31日

时间: 2024-08-01 16:21:24

机器学习算法究竟是什么?的相关文章

最实用的机器学习算法Top5

本文讲的是 最实用的机器学习算法Top5,本文将推荐五种机器学习算法,你应该考虑是否将它们投入应用.这五种算法覆盖最常用于聚类.分类.数值预测和朴素贝叶斯等四个门类. 聚类算法:k-means 聚类算法的目标:观察输入数据集,并借助数据集中不同样本的特征差异来努力辨别不同的数据组.聚类算法最强大之处在于,它不需要本文中其他算法所需的训练过程,您只需简单地提供数据,告诉算法你想创造多少簇(样本的组别),算法会为每个簇来分配一个编号.这种规范聚类算法就是k-means. 举个例子,你的应用可用k-m

机器学习算法基础(Python和R语言实现)

简介 谷歌的无人驾驶汽车已经受到了世人很大的关注,但公司的未来却是在机器学习领域,因为这项技术将使电脑更智能,更人性化.--埃里克·施密特(谷歌主席) 我们可能正经历着人类最明确定义的阶段,这个阶段计算机计算从大型主机,到个人电脑,到云计算.但这些并不是根本原因,而是接下来几年中将会发生的. 这个时期使那些像我一样的人们兴奋的是工具和技术的开放,这得以于计算机领域的蓬勃发展.今天,作为一名数据科学家,我能以很低的成本搭建一个拥有复杂算法的数据处理系统.但是达到这样的结果,我也经历了在黑夜中艰苦的

【机器学习】机器学习算法总结

       找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大. 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大点的公司里百度,阿里,腾讯,网易,搜狐,华为(华为的岗位基本都是随机分配,机器学习等岗位基本面向的是博

机器学习算法的python实现之决策树-Decision tree(1)信息熵划分数据集

1.背景 决策书算法是一种逼近离散数值的分类算法,思路比较简单,而且准确率较高.国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一.C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 算法的主要思想就是将数据集按照特征对目标指数的影响由高到低排列.行成一个二叉树序列,进行分类,如下图所示. 现在的问题关

机器学习算法的python实现之KNN-k近邻算法的实现

1.背景 今后博主会每周定时更新机器学习算法及其python的简单实现.今天学习的算法是KNN近邻算法.KNN算法是一个监督学习分类器类别的算法. 什么是监督学习,什么又是无监督学习呢.监督学习就是我们知道目标向量的情况下所使用的算法,无监督学习就是当我们不知道具体的目标变量的情况下所使用的.而监督学习又根据目标变量的类别(离散或连续)分为分类器算法和回归算法. k-Nearest Neighbor.k是算法中的一个约束变量,整个算法的总体思想是比较简单的,就是将数据集的特征值看作是一个个向量.

机器学习算法选用指南

在从事数据科学工作的时候,经常会遇到为具体问题选择最合适算法的问题.虽然有很多有关机器学习算法的文章详细介绍了相关的算法,但要做出最合适的选择依然非常困难. 在这篇文章中,我将对一些基本概念给出简要的介绍,对不同任务中使用不同类型的机器学习算法给出一点建议.在文章的最后,我将对这些算法进行总结. 首先,你应该能区分以下四种机器学习任务: 监督学习 无监督学习 半监督学习 强化学习 监督学习 监督学习是从标记的训练数据中推断出某个功能.通过拟合标注的训练集,找到最优的模型参数来预测其他对象(测试集

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金

机器学习算法集锦

机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.严格的定义:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问.这里所说的"机器",指的就是计算机,电子计算机,中子计算机.光子计算机或神经计算机等等. 机器学习概论 由上图所示:机器学习分为四大块: classific

8种常见机器学习算法比较

简介 机器学习算法太多了,分类.回归.聚类.推荐.图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验.通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择.假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个.但是如果你只是在寻