机器学习领域的几种主要学习方式

机器学习领域的几种主要学习方式

学习方式

根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要 的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。

监督式学习:

在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写 数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断 的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)

非监督式学习:

在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。

半监督式学习:

在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据 来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预 测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。

强化学习:

在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈 到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)

在企业数据应用的场景下, 人们最常用的可能就是监督式学习和非监督式学习的模型。 在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据, 目前半监督式学习是一个很热的话题。 而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。

算法类似性

根据算法的功能和形式的类似性,我们可以把算法分类,比如说基于树的算法,基于神经网络的算法等等。当然,机器学习的范围非常庞大,有些算法很 难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题。这里,我们尽量把常用的算法按照最容易理解的方式进行分类。

回归算法

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域,人们说起回归,有时候是指一 类问题,有时候是指一类算法,这一点常常会使初学者有所困惑。常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)

基于实例的算法

基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式 来寻找最佳的匹配。因此,基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化(Learning Vector Quantization, LVQ),以及自组织映射算法(Self-Organizing Map , SOM)

正则化方法

正则化方法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常 见的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO),以及弹性网络(Elastic Net)。

决策树学习

决策树算法根据数据的属性采用树状结构建立决策模型, 决策树模型常常用来解决分类和回归问题。常见的算法包括:分类及回归树(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林(Random Forest), 多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine, GBM)

贝叶斯方法

贝叶斯方法算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:朴素贝叶斯算法,平均单依赖估计(Averaged One-Dependence Estimators, AODE),以及Bayesian Belief Network(BBN)。

基于核的算法

基于核的算法中最着名的莫过于支持向量机(SVM)了。 基于核的算法把输入数据映射到一个高阶的向量空间, 在这些高阶向量空间里, 有些分类或者回归问题能够更容易的解决。 常见的基于核的算法包括:支持向量机(Support Vector Machine, SVM), 径向基函数(Radial Basis Function ,RBF), 以及线性判别分析(Linear Discriminate Analysis ,LDA)等。

聚类算法

聚类,就像回归一样,有时候人们描述的是一类问题,有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的 聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法(Expectation Maximization, EM)。

关联规则学习

关联规则学习通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则。常见算法包括 Apriori算法和Eclat算法等。

人工神经网络

人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同 的算法。(其中深度学习就是其中的一类算法,我们会单独讨论),重要的人工神经网络算法包括:感知器神经网络(Perceptron Neural Network), 反向传递(Back Propagation), Hopfield网络,自组织映射(Self-Organizing Map, SOM)。学习矢量量化(Learning Vector Quantization, LVQ)

深度学习

深度学习算法是对人工神经网络的发展。 在近期赢得了很多关注, 特别是 百度也开始发力深度学习后, 更是在国内引起了很多关注。  在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法,用来处理存在少量未标识数据的大 数据集。常见的深度学习算法包括:受限波尔兹曼机(Restricted Boltzmann Machine, RBN), Deep Belief Networks(DBN),卷积网络(Convolutional Network), 堆栈式自动编码器(Stacked Auto-encoders)。

降低维度算法

像聚类算法一样,降低维度算法试图分析数据的内在结构,不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法 可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括:主成份分析(Principle Component Analysis, PCA),偏最小二乘回归(Partial Least Square Regression,PLS), Sammon映射,多维尺度(Multi-Dimensional Scaling, MDS),  投影追踪(Projection Pursuit)等。

集成算法

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较 弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法,同时也非常流行。常见的算法包括:Boosting, Bootstrapped Aggregation(Bagging), AdaBoost,堆叠泛化(Stacked Generalization, Blending),梯度推进机(Gradient Boosting Machine, GBM),随机森林(Random Forest)。

原文发布时间:2014-12-24

本文来自云栖合作伙伴“linux中国”

时间: 2025-01-14 00:36:49

机器学习领域的几种主要学习方式的相关文章

机器学习领域中的六大误区

误区 机器学习已经不再仅限于科幻电影--从Siri与Alexa语音识别到Facebook的照片自动标记,再到Amazon与Spotify商品推荐,机器学习技术开始越来越多地融入日常生活.目前,众多企业渴望着利用机器学习算法以改进自身网络效率. 与任何技术一样,机器学习如果未经正确实施,同样有可能对网络造成严重危害.因此在采取这项技术之前,企业应当了解机器学习可能引发的问题,同时尽量加以避免.在今天的文章中,瞻博网络公司安全智能软件得Roman Sinayev列举了以下六种机器学习领域的认识误区.

人工智能和机器学习领域的一些有趣的开源项目

http://www.cnblogs.com/zengdan-develpoer/p/4380057.html 1.GraphLab GraphLab是一种新的面向机器学习的并行框架.GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow.Adobe.Zynga.Pandora.Bosch.ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统.欺诈监测系统.情感及社交网络分析系统等系统模式将大数据理念转换为生

《Web安全之机器学习入门》一 2.1 Python在机器学习领域的优势

2.1 Python在机器学习领域的优势 Python在机器学习领域应用广泛(如图2-1所示),我认为主要原因有两个: 语法简单,功能强大: 生态完整,具备丰富的第三方库,对应的机器学习库非常丰富. 下面将重点介绍四个库. 2.1.1 NumPy NumPy是Python的一种开源的数值计算扩展.这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多. NumPy包括: 一个强大的N维数组对象Array: 比较成熟的(广播)函数库: 用于整合C/C++和Fortran代码的

人工智能和机器学习领域中10个开源项目

GraphLab GraphLab是一种新的面向机器学习的并行框架.GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以 分析产品,该公司客户包括Zillow.Adobe.Zynga.Pandora.Bosch.ExxonMobil等,它们从别的应用程序或者服务中抓 取数据,通过推荐系统.欺诈监测系统.情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.( 详情 ) 项目主页: http://graphlab.org/ Vowpal

《构建实时机器学习系统》一1.3 机器学习领域分类

1.3 机器学习领域分类 从方法论的角度来讲,机器学习分为监督式学习.非监督式学习和新兴机器学习课题三大方面. 1. 监督式学习 监督式机器学习的主要任务是通过机器学习模型和已有信息,对感兴趣的变量进行预测,或者对相关对象进行分类.监督式机器学习的一些应用场景包括:对网页访问进行分类,通过声音.文字.表情等信息对用户心情进行判断,对天气进行预测等.常用的监督式机器学习方法包括线性模型.最近邻估计.神经网络.决策树等.最近特别火热的深度学习在图像分类等场景的应用也是监督式学习的一种. 2. 非监督

这10本由浅入深的好书,或让你成为机器学习领域的专家

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文: 机器学习是个跨领域的学科,而且在实际应用中有巨大作用,但是没有一本书能让你成为机器学习的专家.在这篇文章中,我挑选了10本书,这些书有不同的风格,主题也不尽相同,出版时间也不一样.因此,无论你是新手还是领域专家,一定能找到适合你的. 新手的最佳读物 这本书绝对是初学者非常期待的入门书.这本书条理清晰,学习成本低,因此我把它列为新手的最佳读物.下面让我们深入讨论一些关于人工智能程序的话题. 人工智能编程范例 如果您想接触最新的人

需要密切关注的六大人工智能/机器学习领域

近段时间,有许多关于人工智能公认定义的争论.有些人认为人工智能就是"认知计算"或是"机器智能",而另一些人则把它与"机器学习"的概念混淆了.然而,人工智能并不是特指某种技术,它实际上是一个由多门学科组成的广阔领域,包括机器人学和机器学习等.人工智能的终极目标是让机器替代人类去完成需要认知能力的任务.为了实现这一目标,机器必须自动学习掌握能力,而不仅仅是执行程序员编写的命令. 人工智能在过去的十年里取得了令人叹为观止的进步,例如自动驾驶汽车.语音识

RFID技术在无人店领域的几种应用模式

在欧尚.大润发等大型超市相继开始尝试无人店模式后,国内零售业对于无人店的关注也如同开了锅的沸水一般进入了蒸腾状态.细心的人会发现,无论是欧尚或者大润发本次引入的都是以RFID技术为基础的无人店设备,究竟RFID是个什么样的技术,在无人店领域RFID又会带来怎么样的应用模式呢?这里为大家做个简单的小分享. 什么是RFID? 射频识别,RFID(Radio Frequency Identification)技术,又称无线射频识别,是一种通信技术,可通过无线电讯号识别特定目标并读写相关数据,而无需识别

还在看视频读文档学编程?这有7种编程学习方式,哪种最适合你?

如果你也在学习编程,你可能也尝试了许多课程和资源.但是,学习编程有很多层次,从学习具体的编程语言,到学习如何像程序员一样思考.每个人的学习方式不同导致教学过程变得很复杂. 从视频.文档到听觉触觉,如何辨认最适合你的学习方式呢?又如何找到最好的编程学习资源来满足不同学习需求? 学习方式简单来说,就是你学习新知识的时候所喜欢用的方法,这个方法能让你理解并记住新的内容.学习方式不是固定不变的.也就是说,你可能会有运用好几种主要的学习方式,但这些方式会随着学习内容的改变而有所调整.了解最适合你的主要学习