机器学习中的归一化

归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。

数据归一化的目的是为了把不同来源的数据统一到一个参考系下,这样比较起来才有意义。

数据归一化,很重要。比如在用SVM分类时,数据尺度不统一对分类准确率影响很大。归一化一般将数据规整到一个小范围之间,如[0,1]或[-1,1],具体的方法一范求和或二范求模归一化等。

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:

一、min-max标准化(Min-Max Normalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

二、Z-score标准化方法

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

其中为所有样本数据的均值,为所有样本数据的标准差。

时间: 2024-10-30 07:34:58

机器学习中的归一化的相关文章

机器学习中,使用Scikit-Learn简单处理文本数据

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud   机器学习中,我们总是要先将源数据处理成符合模型算法输入的形式,比如将文字.声音.图像转化成矩阵.对于文本数据首先要进行分词(tokenization),移除停止词(stop words),然后将词语转化成矩阵形式,然后再输入机器学习模型中,这个过程称为特征提取(feature extraction)或者向量化(vectorization).本文会教你使用Scikit-Learn机器学习库中的三种模型来实现

结合美团下单率预测详解机器学习中的数据清洗与特征处理

目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐.筛选排序.搜索排序.用户建模等等.本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法. 综述 机器学习框架 如上图所示是一个经典的机器学习问题框架图.数据清洗和特征挖掘的工作是在灰色框中框出的部分,即"数据清洗=>特征,标注数据生成=>模型学习=>模型应用"中的前两个步骤. 灰色框中蓝色箭头对应的是离线处理部分.主要工作是 从原始数据,如文本.图像或者应用数据中清洗出特征数据和

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT. 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的. 模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能会有几百棵以上)棵树,这样可以大大的减少单决策树带来的毛病,

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

版权声明:    本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言:    上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译.不过还是可以看.另外一个是prml-pattern r

纯干货 | 机器学习中梯度下降法的分类及对比分析(附源码)

更多深度文章,请关注:https://yq.aliyun.com/cloud HackerEarth,一家来自印度的创业公司,旨在帮助开发者通过线上编程竞赛获得工作机会.和Github类似,它提供一个多种编程语言的代码交流平台.而HackerEarth blog 上多刊登一些跟大数据.人工智能.机器学习.算法及编程竞赛相关的博文. 引言       梯度下降法 (Gradient Descent Algorithm,GD) 是为目标函数J(θ),如代价函数(cost function), 求解全

数学-机器学习中关于互信息和信息增益的关系

问题描述 机器学习中关于互信息和信息增益的关系 最近看 数学之美 上面 互信息 的公式是I(X;Y)=H(X)-H(X|Y) 又看到 统计学习方法 上有一个 信息增益 的公式G(DA)=H(D)-H(D|A) 这不是一样吗?难道互信息就是信息增益?还是说G(DA)里面的这个D指的是系统总的熵?而互信息是两个变量的关系?想不明白,大神请明示. 解决方案 在决策树里面那个信息增益就是互信息

追剧学AI (6) | 概率论在机器学习中的迁移运用,手把手建一个垃圾邮件分类器

人工智能中的数学概念一网打尽!欢迎来到YouTube网红小哥Siraj的系列栏目"The Math of Intelligence",本视频是该系列的第6集,讲解 概率论在机器学习中的运用,看完视频后,大家会学到一个生活中非常实用的技能喔! (大数据文摘已获得Siraj本人翻译授权) 大家好,我是Siraj. 让我们将目光高度聚焦在概率论在机器学习中扮演的角色,通过从头开始构建一个垃圾邮件分类器. 数学概念在生活中的应用 生活中充满了不确定性,我们尝试一些自己觉得会成功的事情,但我们无

[译]如何处理机器学习中的不平衡类别

本文讲的是[译]如何处理机器学习中的不平衡类别, 原文地址:How to Handle Imbalanced Classes in Machine Learning 原文作者:elitedatascience 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/gold-m- 译者:RichardLeeH 校对者:lsvih, lileizhenshuai 如何处理机器学习中的不平衡类别 不平衡类别使得"准确率"失去意义.这是机器学习 (特别是在分类)中一个令人惊讶的

机器学习中决策树的原理与算法 | 科普

雷锋网(公众号:雷锋网)按:本文作者栗向滨,中科院自动化所复杂系统国家重点实验室研究生毕业,机器学习与计算机视觉方向算法工程师.雷锋网首发文章. 我们知道,在机器学习中有两类十分重要的问题,一类是分类问题,一类是回归问题.我们今天所要探讨的就是在分类和回归问题中所用到的一种非常基本的方法,叫决策树.决策树也是重要的标签学习方法.这篇文章里面的部分内容来自于 AI 慕课学院的<机器学习理论与实战高级特训班>课程笔记. 从名字来看,决策的的意思就是在众多类别中我们需要决策出我们分类的东西是属于哪一