《R语言数据挖掘:实用项目解析》——第2章,第2.4节解读分布和变换

2.4 解读分布和变换
为了对所有统计假设检验的前提假设有清晰的认识,理解概率分布至关重要。例如,在线性回归分析中,基本的前提假设是误差分布呈正态分布且变量关系为线性。所以在建立模型之前,观察分布的形状并采取可能的校正变换是很重要的,如此才能便于对这些变量使用更深入的统计技术。

2.4.1 正态分布
正态分布原理基于中心极限定理(CLT),表示从一个均值为μ、方差为σ2的总量中抽取的所有大小为n的样本,在n增长趋于无穷时,其分布都近似于一个均值为μ、方差为σ2的正态分布。检查变量的正态性对于移除离群点很重要,因为这样才会使得预测过程不会受影响。离群点的存在不仅会使预测值偏离,也会影响预测模型的稳定性。接下来的示例代码和图将演示如何图像化地检测并解释正态性。
为了检测出正态分布,我们可以使用其中一些变量的平均值、中位数和众数:

从上图可以得出这样的结论,price变量是正偏斜的,因为一些离群点在分布的右边。price的平均值被夸大且大于众数,因为平均值受到极端值波动的影响。
现在我们尝试理解一个可用正态分布解答假设的案例。
假设变量MPG.highway(高速路上每加仑油耗可行驶的英里数)呈均值为29.08和标准差为5.33的正态分布,一辆新车每加仑油耗可行驶35英里(约56km)的概率是多少?

因此要求一辆新车每加仑油耗可以行驶35英里的概率是13.36%。因为期望均值高于实际均值,所以lower.tail设为F。
2.4.2 二项分布
二项分布也被称为离散概率分布,它描述的是一个试验的结果。每一次试验均假定只有两种结果:要么为成功或失败,要么为是或否。举个例子,Cars93数据集中,是否手动变速(manual transmission availability)就被表示成yes或no。
下面以一个例子来解释二项分布可以用在什么地方。对于一辆有缺陷的汽车,有一个特定零件功能坏了的概率是0.1%。假设有93辆已制造好的汽车,至少一辆有缺陷的汽车可被检测出来的概率是多大:

所以要求的93辆汽车中的有缺陷汽车概率是0.0006,与一个损坏零件的概率0.10相比,这是个非常小的数字。

2.4.3 泊松分布
泊松分布针对的是计数数据,给定关于一个事件的数据与信息,利用泊松概率分布,你可以预测在极限范围内任一数字出现的概率。
我们来看一个例子。假设平均每分钟有200位顾客访问某电商网站,可得一分钟内会有250个顾客访问同一个网站的概率:

因此,所求的概率是0.0002,说明这种情况很罕见。除了上述常见的概率分布,还有一些分布可用于罕见情况。

时间: 2024-10-13 20:09:07

《R语言数据挖掘:实用项目解析》——第2章,第2.4节解读分布和变换的相关文章

《R语言数据挖掘:实用项目解析》——导读

前 言 随着数据规模和种类的增长,应用数据挖掘技术从大数据中提取有效信息变得至关重要.这是因为企业认为有必要从大规模数据的实施中获得相应的投资回报.实施数据挖掘的根本性原因是要从大型数据库中发现隐藏的商机,以便利益相关者能针对未来业务做出决策.数据挖掘不仅能够帮助企业降低成本以及提高收益,还能帮助他们发现新的发展途径. 本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理.R是一门免费的程序语言,同时也是一个提供统计计算.图形数据可视化和预测建模的软件环境,并且可以与其他工具和平台相集成.

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

《R语言数据挖掘》——2.2 购物篮分析

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.2 购物篮分析 购物篮分析(Market basket analysis)是用来挖掘消费者已购买的或保存在购物车中物品组合规律的方法.这个概念适用于不同的应用,特别是商店运营.源数据集是一个巨大的数据记录,购物篮分析的目的发现源数据集中不同项之间的关联关系. 2

《R语言数据挖掘》----1.3 数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.3 数据挖掘 数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的.有效的.意想不到的且可以理解的知识.有些目标与其他科学,如统计学.人工智能.机器学习和模式识别是相同的.在大多数情况下,数据挖掘通常被视为一个算法问题.聚类.分类.关联

《R语言数据挖掘》----1.6 网络数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 网络数据挖掘 网络挖掘的目的是从网络超链接结构.网页和使用数据来发现有用的信息或知识.网络是作为数据挖掘应用输入的最大数据源之一. 网络数据挖掘基于信息检索.机器学习(Machine Learning,ML).统计学.模式识别和数据挖掘.尽管很多数据挖掘方法

《R语言数据挖掘》----1.9 机器学习

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.9节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.9 机器学习 应用于机器学习算法的数据集称为训练集,它由一组成对的数据(x, y)构成,称为训练样本.成对的数据解释如下: x:这是一个值向量,通常称为特征向量.每个值或者特征,要么是分类变量(这些值来自一组离散值,比如{S, M, L}),要么是数值型. y:

《R语言数据挖掘》----1.13 数据降维

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.13节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.13 数据降维 在分析复杂的多变量数据集时,降低维度往往是必要的,因为这样的数据集总是以高维形式呈现.因此,举例来说,从大量变量来建模的问题和基于定性数据多维分析的数据挖掘任务.同样,有很多方法可以用来对定性数据进行数据降维. 降低维度的目标就是通过两个或者多

《R语言数据挖掘》----1.10 数据属性与描述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.10节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.10 数据属性与描述 属性(attribute)是代表数据对象的某些特征.特性或者维度的字段. 在大多数情况下,数据可以用矩阵建模或者以矩阵形式表示,其中列表示数据属性,行表示数据集中的某些数据记录.对于其他情况,数据不能用矩阵表示,比如文本.时间序列.图像.