机器学习之——多类分类问题

在之前的博客中,我们讨论了逻辑回归模型(Logistic Regression)解决分类问题。但是我们发现,逻辑回归模型解决的是二分问题,即:模型的结果只有两个值,y=0 or y=1 。但是在现实情境下,我们的训练集往往包含多个类(>2),我们就无法用一个二元变量(y=0|y=1)来做判断依据了。举个例子,我们预测天气,天气的情况就分为:晴天、阴天、雨天、多云、雪天、雾天等等。

下面是一个多类分类问题(Multiclass Classification)可能的情况:

三个不同的形状,表示三种不同的分类。

一种解决这类问题的途径,是采用一对多(One-vs-All)方法。在一对多方法中,我们将多类分类问题转变成二元分类问题。为了能实现这样的转变,我们将多个类中的一个类标记为正向类(y=1),然后将其他所有的类都标记成负向类(y=0),这个模型记作:

接着,相同的,我们选择另外一个类标记为正向类(y=2),再将其他的类都标记为负向类,将这个模型记作:

以此类推。

最后,我们得到一系列的模型,简记为:

其中 i = 1,2,3,...,k

步骤可以记作下图:

最后,在我们需要做预测时,我们将所有的分类机都运行一遍,然后对于每一个输入变量,都选择最高可能性的输出变量。

这便是解决多类分类问题的一对多方法。

下一次,我们讨论关于训练集数据拟合问题的归一化问题(Regularization)

时间: 2024-08-01 18:36:40

机器学习之——多类分类问题的相关文章

机器学习(二)--- 分类算法详解

感觉狼厂有些把机器学习和数据挖掘神话了,机器学习.数据挖掘的能力其实是有边界的.机器学习.数据挖掘永远是给大公司的业务锦上添花的东西,它可以帮助公司赚更多的钱,却不能帮助公司在与其他公司的竞争中取得领先优势,所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路.可是相比Java和C++语言开发来说,机器学习/数据挖掘确实是新一些老人占的坑少一些,而且可以经常接触一些新的东西.还是赶紧再次抓住机会集中的再总结一下吧,不能再拖拖拉拉了.  其实数据挖掘的主要任务是分类.聚类.关联分析.预测.时

【机器学习PAI实践十二】机器学习实现男女声音识别分类(含语音特征提取数据和代码)

背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理.目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一些搜索工具利用语音输出文本代替键盘录入. 本文我们将针对语音识别中最简单的案例"男女声音"识别,结合本地的R工具以及机器学习PAI,为大家进行介绍.通过本案例,可以将任何用户的语音数据标记出性别,并且保持高准确率.我们把整个实验流程切分为两部分,第一部分是声音信号的特征提取,通过R的信号处

多类分类-初学adaboost算法,求指教

问题描述 初学adaboost算法,求指教 新手,初学adaboost算法,从网上找了一些资料和文献,有些地方没有看懂,请各位老师们指点. adaboost算法的基本原理是将在不同的样本分布下训练"弱分类器",将多个"弱分类器"集成为一个"强分类器",其关键是在每一轮的样本权重更新中,提高上一轮识别错误的样本权重,降低上一轮识别正确的样本权重. 我想问的是,在我找的资料和文献中,给出的算法流程都没有说明怎样根据样本分布进行下一轮的训练,样本的权重

《Python机器学习——预测分析核心算法》——1.1 为什么这两类算法如此有用

1.1 为什么这两类算法如此有用 有几个因素造就了惩罚线性回归和集成方法成为有用的算法集.简单地说,面对实践中遇到的绝大多数预测分析(函数逼近)问题,这两类算法都具有最优或接近最优的性能.这些问题包含:大数据集.小数据集.宽数据集(wide data sets)[1].高瘦数据集(tall skinny data sets)[2].复杂问题.简单问题,等等.Rich Caruana及其同事的两篇论文为上述论断提供了证据. 1."An Empirical Comparison of Supervi

28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首 15. XGBoost XGBoot是设计为高效.灵活.可移植的优化分布式梯度 Boosting库.它实现了 Gradient Boosting 框架下的机器学习算法.XGBoost通过提供并行树Boosting(也被称为GBDT.GBM),以一种快速且准确的方式解决了许多数据科学问题.相同的代码可以运行在大型分布式环境如Hadoop.SGE.MP上.它类似于梯度上升框架,但是更加高效.它兼具线性模型求解器和树学

大数据漫谈:Spark如何引燃机器学习?

文章讲的是大数据漫谈:Spark如何引燃机器学习,如今,再讨论大数据,无论是互联网行业还是传统行业似乎都有话说.大数据改变了很多,也带来了很多.人工智能作为大数据的一个重要分支,也纷纷被各大企业划入未来的规划之内.不久前,李开复就曾说过,未来的人工智能市场将比如今大火的移动互联市场要大10倍. 本文将讨论Spark的开源机器学习库Spark ML.从Spark 1.6开始,Spark ML软件包中基于DataFrame的API推荐明显多于基于RDD的API,但是还未完全取代.从Spark 2.0

13个最流行机器学习框架 帮你解决网络安全机器学习的困难问题

在过去的一年中, 机器学习 发展得热火朝天,已成为主流.机器学习的"空降"并非仅仅由廉价的云环境以及 日益强大的GPU硬件驱动 ,同时也受到了开源框架的蓬勃发展的影响.这些开源框架用于提取机器学习中最困难部分,使机器学习可供广泛开发者使用. 用机器学习解决网络安全问题 开源机器学习框架能助力 < 你的机器学习到底解决了什么? >一文中指出 没有什么机器学习厂商,只有应用机器学习解决特定问题的厂商,因为它本身无法独立解决任何问题,只是解决特定问题的手段,至少应该用于事件响应.

机器学习奠基人、AAAI 前主席Thomas Dietterich:AI发展四大挑战 (35PPT)

[人物简介]Thomas G. Dietterich 是机器学习领域的创始人之一. 他的研究贡献主要包括将纠错输出编码(error-correcting output coding)应用于多类分类问题,发明了多实例学习(multiple-instance learning).层次强化学习 MAXQ 框架,以及将非参数回归树整合到概率图模型中的方法(包括条件随机场和潜变量模型).著作包括<人工智能手册>(Handbook of Artificial Intelligence)第十四章(学习和归纳

《推荐系统:技术、评估及高效算法》一2.3 分类

2.3 分类 分类器是从特征空间到标签空间的映射,其中特征代表需要分类的元素的属性,标签代表类别.例如,餐厅推荐系统能够通过分类器来实现,其分类器基于许多特征描述把餐厅分成两类中的一类(好的,不好的). 有许多种类型的分类器,但是一般情况下我们谈的有监督分类器和无监督分类器.在有监督分类器中,我们预先知道一组标签或是类别,并且我们有一组带有标签的数据,用来组成训练集.在无监督分类中,类别都是提前未知的,其任务是恰当地组织好我们手中的元素(按照一些规则).在本节中我们描述几个算法来学习有监督分类,