机器学习基础:分类vs回归

经常看到这样的问题:“如何计算回归问题的准确度?”像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么。

这是分类和回归问题之间的一个重要区别。从根本上说,分类就是预测一个标签,而回归则是预测一个数量。

在本文中,你将发现分类和回归之间的区别。

看完文章后,你将会知道:

  • 预测模型是关于从输入到输出学习映射函数的问题,称为函数逼近。
  • 分类是预测离散类标签输出的问题。
  • 回归是预测连续数量输出的问题。

让我们开始吧。

文章概述

本文分为5部分,它们是:

  1. 函数逼近
  2. 分类
  3. 回归
  4. 分类与回归
  5. 分类与回归问题之间的转换

函数逼近

预测建模是用历史数据来建立一个模型来预测新数据,针对我们没有答案的问题。

有关预测建模的更多信息,请参见:

预测建模可以描述为从输入变量(x)到输出变量(y)逼近映射函数(f)的数学问题。这称为函数逼近问题。

建模算法的工作是在我们可以提供可用的时间和资源的情况下,找到最好的映射函数。

有关应用机器学习中的逼近函数的更多信息,请参见:

一般来说,我们可以把所有函数逼近任务划分为分类任务和回归任务。

分类预测模型

分类预测建模是将映射函数(f)从输入变量(x)逼近到离散输出变量(y)的任务。

输出变量通常称为标签或类别。映射函数预测给定观测值的类或类别。

例如,文本电子邮件可以分为两类:“垃圾邮件”和“非垃圾邮件”。

  • 分类问题要求将实例分为两个或多个类中的一个。
  • 分类可以有实值或离散的输入变量。
  • 两类问题通常被称为二类或二元分类问题。
  • 多于两个类别的问题通常被称为多类别分类问题。
  • 一个例子被指派多个类的问题被称为多标签分类问题。

分类模型通常将连续值预测为属于每个输出类别的给定示例的概率。 概率可以被解释为属于每个类别的给定例子的可能性或置信度。 可以通过选择具有最高概率的类别标签将预测概率转换为类别值。

例如,特定的文本电子邮件可能被指定为“垃圾邮件”的概率为0.1,“非垃圾邮件”的概率为0.9。 通过选择“非垃圾邮件”标签,我们可以将这些概率转换为类标签,因为它具有最高的预测可能性。

评估分类预测模型的技巧有很多种方法,但最常见的方法是计算分类准确度。

分类准确率是所有预测中正确分类的百分比。

例如,如果一个分类预测模型做了5个预测,其中3个是正确的,2个是不正确的,那么基于这些预测的模型的分类准确性将是:

accuracy = correct predictions / total predictions * 100
    accuracy = 3 / 5 * 100
    accuracy = 60%

能够学习分类预测模型的算法被称为分类算法。

回归预测建模

回归预测建模是将输入变量(X)映射到连续输出变量(y)的映射函数(f)的任务。

连续输出变量是一个实数值,例如整数或浮点值。 这些往往是数量,如金额和大小。

例如,一所房子可能会以特定的美元价值出售,可能在$ 100,000到$ 200,000的范围内。

  • 回归问题需要预测数量。
  • 回归可以具有实值或离散的输入变量。
  • 多输入变量的问题通常称为多元回归问题。
  • 输入变量按时间排序的回归问题称为时间序列预测问题。

由于回归预测模型预测一个数量,所以该模型的技巧必须作为这些预测中的一个误差来报告。

估计回归预测模型的技巧有许多方法,但最常见的可能是计算均方根误差,缩写为首字母缩略词是RMSE。

例如,如果一个回归预测模型做了2个预测,其中1.5的期望值是1.0,另一个是3.3,期望值是3.0,那么RMSE是:

RMSE = sqrt(average(error^2))
    RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)
    RMSE = sqrt((0.25 + 0.09) / 2)
    RMSE = sqrt(0.17)
    RMSE = 0.412

RMSE的一个优点是错误分数的单位与预测值的单位相同。

能够学习回归预测模型的算法被称为回归算法。

一些算法的名称中包含“回归”这个词,如线性回归和逻辑回归,因为线性回归是一种回归算法,而逻辑回归是一种分类算法,这令人感到困惑。

分类与回归

分类预测建模问题不同于回归预测建模问题。

  • 分类是预测离散类标签的任务。
  • 回归是预测连续数量的任务。

分类和回归算法之间有一些重叠,例如:

  • 分类算法可以预测连续值,但是连续值是以类标签的概率的形式。
  • 回归算法可以预测离散值,但离散值以整数形式表示。

一些算法可用于分类和回归的小修改,例如决策树和人工神经网络。有些算法不能或不能很容易地用于这两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是,我们评估分类和回归预测的方法各不相同,也不重叠:

  • 分类预测可以使用准确性进行评估,而回归预测则不能。
  • 回归预测可以使用均方根误差进行评估,而分类预测则不能。

分类和回归问题之间的转换

在某些情况下,将回归问题转换为分类问题是可能的。例如,要预测的数量可以转换成离散的量。

例如,连续0至100美元之间的金额可以转换成2个量:

  • 第0类:0至49美元
  • 第1类:50至100美元

这通常被称为离散化,产生的输出变量是一种分类,其中标签有一个有序的关系(称为序数)。

在某些情况下,分类问题可以转化为回归问题。 例如,标签可以被转换成连续的范围。

有些算法通过预测每一个类的概率,从而依次缩放到特定的范围:

quantity = min + probability * range

另外,可以将类值排序并映射到连续范围:

  • 0到49美元为第1类
  • 50到100美元为第二类

如果分类问题中的类别标签不具有自然的序数关系,则从分类到回归的转换可能会导致令人惊讶或糟糕的性能,因为该模型可能会从输入到连续输出范围学习错误或不存在的映射。

进一步的阅读

如果你想深入了解,本节将提供更多有关该主题的资源。

总结

在本教程中,你了解了分类和回归问题之间的区别。

具体来说,你了解到:

  • 预测建模是关于从输入到输出学习映射函数的问题,称为函数逼近。
  • 分类是预测离散类标签输出的问题。
  • 回归是预测连续数量输出的问题。

作者信息

Dr. Jason Brownlee 是一名机器学习从业者,学术研究人员,致力于帮助开发人员从入门到精通机器学习。

本文由北邮@爱可可-爱生活老师推荐,阿里云组织翻译。

文章原标题《Difference Between Classification and Regression in Machine Learning》

作者:Dr.Jason Brownlee 译者:董昭男

文章为简译,更为详细内容,请查看原文

时间: 2024-09-20 01:15:00

机器学习基础:分类vs回归的相关文章

神经网络和机器学习基础入门分享

         最近在做知识图谱实体对齐和属性对齐中,简单用了下Word2vec谷歌开源代码.Word2vec是一个将单词表征成向量的形式,它可以把文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度.         Word2vec采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(Continuous Skip-GramModel)两种模型,涉及到神经网络和深度学习的一些知识.故这周给学弟和

机器学习实战(Machine Learning in Action)笔记--Chapter1:机器学习基础

Part1 分类 监督学习一般使用两种类型的目标变量:标称型(主要用于分类).数值型(主要用于回归). 非均衡分类问题 第1章 机器学习基础 专家系统 训练样本.特征.目标变量(分类问题中为类别) 训练数据和测试数据 知识表示 监督学习:分类.回归 无监督学习 将数据集合分成由类似的对象组成的多个类的过程被称为聚类 将寻找描述数据统计值的过程称之为密度估计 监督学习的用途:k-近邻算法.朴素贝叶斯算法.支持向量机.决策树.线性回归.局部加权线性回归.Ridge回归.Lasso最小回归系数估计 无

《R语言机器学习:实用案例分析》——1.7节机器学习基础

1.7 机器学习基础 既然你已经回顾了关于R的内容,我们将讨论机器学习的基础:什么是机器学习,今天如何使用机器学习,以及机器学习中的主要领域.本节将对机器学习进行概述,为你进入下一章机器学习的深入研究做铺垫.1.7.1 机器学习--真正的含义是什么 由于机器学习是一个囊括和借鉴了计算机科学中多个领域的概念和技巧的一门学科,所以它还没有一个明确的教科书定义.在大学中,机器学习也作为一个学术课程进行教授.随着机器学习和数据科学在网上的教育视频.课程和培训形式被大众广泛接受,该学科在最近有了显著的发展

机器学习基础(一)K近邻法

机器学习分两大类,有监督学习(supervised learning)和无监督学习(unsupervised learning).有监督 学习又可分两类:分类(classification.)和回归(regression),分类的任务就是把一个样本划为某个已 知类别,每个样本的类别信息在训练时需要给定,比如人脸识别.行为识别.目标检测等都属于分类.回归的 任务则是预测一个数值,比如给定房屋市场的数据(面积,位置等样本信息)来预测房价走势.而无监督学习 也可以成两类:聚类(clustering)和

《构建实时机器学习系统》一1.3 机器学习领域分类

1.3 机器学习领域分类 从方法论的角度来讲,机器学习分为监督式学习.非监督式学习和新兴机器学习课题三大方面. 1. 监督式学习 监督式机器学习的主要任务是通过机器学习模型和已有信息,对感兴趣的变量进行预测,或者对相关对象进行分类.监督式机器学习的一些应用场景包括:对网页访问进行分类,通过声音.文字.表情等信息对用户心情进行判断,对天气进行预测等.常用的监督式机器学习方法包括线性模型.最近邻估计.神经网络.决策树等.最近特别火热的深度学习在图像分类等场景的应用也是监督式学习的一种. 2. 非监督

《构建实时机器学习系统》一1.5 实时机器学习的分类

1.5 实时机器学习的分类 按照实际应用中采用的方式不同,实时机器学习可以分为硬实时.软实时和批实时三种模式,下面将分别进行介绍. 1.5.1 硬实时机器学习 硬实时的定义是:响应系统在接收到请求之后,能够马上对请求进行响应反馈,做出处理.硬实时机器学习的主要应用场景是网页浏览.在线游戏.高频交易等对时效性要求非常高的领域.在这些领域中,我们往往需要将相应延迟控制在若干毫秒以下.对于高频交易等场景,更是有不少计算机软件.硬件专家,开发出了各种专有模块以在更短的时间内完成交易,获得超额利润. 在本

《数据挖掘:实用案例分析》——第2章 数据挖掘的应用分类 2.1 分类与回归

第2章 数据挖掘的应用分类 由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及.如在销售数据中发掘顾客的消费习惯,并可从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例:利用数据挖掘分析顾客群的消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的:制造业对数据挖掘的需求多运用在品质控管方面,从制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率.

机器学习基础(四)逻辑回归

从这节算是开始进入"正规"的机器学习了吧,之所以"正规"因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证.这整套的流程是机器学习必经环节.今天要学习的 话题是逻辑回归,逻辑回归也是一种有监督学习方法(supervised machine learning).逻辑回归一般用来 做预测,也可以用来做分类,预测是某个类别^.^!线性回归想比大家都不陌生了,y=kx+b,给定一堆数据点, 拟合出k和b的值就行了,下次给定X时,就

Spark机器学习4·分类模型(spark-shell)

Spark机器学习 线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 0 准备数据 kaggle2.blob.core.windows.net/competitions-data/kaggle/3526/train.tsv sed 1d train.tsv > train_noheader.tsv 0 运行环境 cd /Users