《实用机器学习》——1.2 机器学习算法的分类

1.2 机器学习算法的分类

在机器学习中,常用的算法可以分为监督型学习(supervised learning)和非监督型学习(unsupervised learning)①。

在监督型学习中,除了输入数据x外,我们还知道对应的输出y。我们的目标是构建一个函数f(x),使得f(x)能够预测输出y。
在非监督型学习中,我们只有输入数据x,没有对应的输出y。我们的目标是从数据中学习数据本身存在的模式(pattern)。例如,聚类分析(cluster analysis)就是一个非监督型学习的典型例子,它通过分析样本之间的相似度来将样本划分为几个不同的聚类。
在监督型学习中,输出y一般称为目标变量(target variable)或者因变量(dependent variable),而输入x称为解释变量(explanatory variable)或者自变量(independent variable)。

在实际中,在条件允许的情况下,我们偏好监督型学习。因为我们知道相应的目标变量的值,所以能够更加准确地构建模型,取得更好的效果。对于非监督型学习,在实际中,我们可以直接将其结果作为输出,但更多地是将其结果作为新的特征,再应用到监督型学习的算法中。例如,对于一组数据,可以先使用k均值算法对数据进行聚类分析,然后将聚类分析的结果作为新的特征。本书将主要讨论监督型学习。

在监督型学习中,一般将整个数据集分为训练集(training set)和测试集(test set)。利用训练集中的数据,可以构建相应的模型(model)或者学习器(learner)。利用测试集,可以估计所构建模型的性能高低。在数据集中,我们使用样本(sample)、数据点(data point)或实例(instance)来称呼其中的每个点。监督型学习可以进一步分为回归问题、分类问题等。我们将在1.3节利用具体的例子来介绍监督型学习。

时间: 2024-10-27 19:01:22

《实用机器学习》——1.2 机器学习算法的分类的相关文章

机器学习与数据挖掘基本算法初步介绍

随着互联网技术的发展,特别是web2.0时代的到来,互联网为我们提供了丰富的数据来源,如何充分的利用这些数据,挖掘用户信息,是下一代互联网急需解决的问题. 机器学习和数据挖掘主要是解决以下几个方面的问题,分类与预测,优化,独立特征提取等.机器学习的很多算法都是基于以下图1中模型来进行设计.  图1 学习系统模型 我们应对外界环境的刺激输入,在实践的过程中不断学习,获取经验知识,并且运用我们所学到的经验知识指导我们日常生活实践,通过实践效果的反馈,也就是所获得的经验教训,从而不断更新积累我们的阅历

《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程

1.5 构建预测模型的流程 使用机器学习需要几项不同的技能.一项就是编程技能,本书不会把重点放在这.其他的技能用于获得合适的模型进行训练和部署.这些其他技能将是本书重点关注的.那么这些其他技能包括哪些内容? 最初,问题是用多少有些模糊的日常语言来描述的,如"给网站访问者展示他们很可能点击的链接".将其转换为一个实用的系统需要用具体的数学语言对问题进行重述,找到预测所需的数据集,然后训练预测模型,预测网站访问者对出现的链接点击的可能性.对问题用数学语言进行重叙,其中就包含了对可获得的数据

《Python机器学习——预测分析核心算法》——导读

前言 Python机器学习--预测分析核心算法 从数据中提取有助于决策的信息正在改变着现代商业的组织,同时也对软件开发人员产生了直接的影响.一方面是对新的软件开发技能的需求,市场分析师预计到2018年对具有高级统计和机器学习技术的人才需求缺口将达140000-190000人.这对具有上述技能的人员来说意味着丰厚的薪水和可供选择的多种有趣的项目.另一方面对开发人员的影响就是逐步出现了统计和机器学习相关的核心工具,这减轻了开发人员的负担.当他们尝试新的算法时,不需要重复发明"轮子".在所有

【干货】机器学习常用 35 大算法盘点(附思维导图)

在本文中,我将提供两种分类机器学习算法的方法.一是根据学习方式分类,二是根据类似的形式或功能分类.这两种方法都很有用,不过,本文将侧重后者,也就是根据类似的形式或功能分类.在阅读完本文以后,你将会对监督学习中最受欢迎的机器学习算法,以及它们彼此之间的关系有一个比较深刻的了解. 事先说明一点,我没有涵盖机器学习特殊子领域的算法,比如计算智能(进化算法等).计算机视觉(CV).自然语言处理(NLP).推荐系统.强化学习和图模型. 下面是一张算法思维导图,点击放大查看.   从学习方式分类 算法对一个

《Python机器学习——预测分析核心算法》——1.4 算法的选择

1.4 算法的选择 这2类算法的概要比较如表1-4所示.惩罚线性回归的优势在于训练速度非常快.大规模数据集的训练时间可以是小时.天,甚至是几周.要获得一个可以部署的解决方案往往需要进行多次训练.过长的训练时间会影响大数据问题的解决进度及其部署.训练所需时间当然越短越好,因此惩罚线性回归因其训练所需时间短而获得广泛使用就是显而易见的了.依赖于问题,此类算法相比集成方法可能会有一些性能上的劣势.第3章将更深入地分析哪类问题适用于惩罚回归,哪类问题适用于集成方法.即使在某些情况下,惩罚线性回归的性能不

《Python机器学习——预测分析核心算法》——第1章 关于预测的两类核心算法

第1章 关于预测的两类核心算法 Python机器学习--预测分析核心算法 本书集中于机器学习领域,只关注那些最有效和获得广泛使用的算法.不会提供关于机器学习技术领域的全面综述.这种全面性的综述往往会提供太多的算法,但是这些算法并没有在从业者中获得积极的应用. 本书涉及的机器学习问题通常是指"函数逼近(function approximation)"问题.函数逼近问题是有监督学习(supervised learning)问题的一个子集.线性回归和逻辑回归是解决此类函数逼近问题最常见的算法

《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题

第2章 通过理解数据来了解问题 Python机器学习--预测分析核心算法新数据集(问题)就像一个包装好的礼物,它充满了承诺和希望.一旦你能解决它,你就收获了喜悦.但是直到你打开它,它都一直保持着神秘.本章就是告诉你怎么"打开"新的数据集,看清楚里面都有什么,知道如何处置这些数据,并且开始思考如何利用这些数据构建相应的模型. 本章有两个目的:一是熟悉这些数据集,这些数据集被用来作为解决各种类型问题的例子,主要是利用第4章和第6章介绍的算法:另一个目的就是展示Python中分析数据的工具包

机器学习系列------1. GBDT算法的原理

GBDT算法是一种监督学习算法.监督学习算法需要解决如下两个问题: 1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本 2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准确. GBDT算法需要最终学习到损失函数尽可能小并且有效的防止过拟合. 以样本随时间变化对某件事情发生的变化为例,如下几副图形象的说明了机器学习的作用. 假设随着时间的变化对K话题存在如下样本: 如果没有有效的正则化,则学习结果会如下图所示: 这种情况下,学习结果跟样本非常符合,损失函数也非常小,但

机器学习之——认识机器学习

前段时间,google的alphaGo让大家的眼睛都聚焦到这一"人工智能"上了.那么就当时应景吧,写一写我关于机器学习的一些笔记及认识,内容主要根据在Coursera上Andrew Ng大神的课程来做笔记. 首先,什么是机器学习? 参照百度百科的讲解,"机器学习是一门多领域交叉学科,设计概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习能力,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能."什么意思呢