《大数据分析原理与实践》——2.3 推断统计

2.3 推断统计

推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论。基本特征是其依据的条件中包含带随机性的观测数据。以随机现象为研究对象的概率论是统计推断的理论基础。它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力;假设检验,即利用样本信息判断对总体的假设是否成立。例如,若感兴趣的问题是“平均视力是否超过4.8”,就需要通过样本检验此命题是否成立。

2.3.1 参数估计

实际问题中,所研究的总体分布类型往往是已知的,但是要依赖于一个或者几个未知的参数。这时,求总体分布的问题就归结成了求一个或者几个未知参数的问题,这就是所谓的参数估计。

例如,一款电灯的使用寿命X是一个随机变量,我们由实际的经验知道X服从正态分布N(μ,σ2)。要想了解这款电灯的实际性能,我们就需要估计出μ和σ2值。又如,一段时间内某个商场的客流量可以用泊松分布来刻画,那么若想知道一定的时间间隔内经过的人数为k的概率,就要估计参数λ的值。

因而,在总体分布已知的情况下进行参数估计是推断统计的重要内容。有些实际问题中人们不关心总体分布的形式,而只是想知道均值、方差等某些数字特征,对这些数字特征的估计问题,也是参数估计的一部分内容。

参数估计主要有点估计和区间估计两类,我们分别讨论。

1.点估计

(1)点估计的两种方法

点估计主要有矩估计和极大似然估计两种。




2.区间估计

区间估计是从点估计值和抽样标准误差(standard error)出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。置信度是指总体参数值落在样本统计值某一区间内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间的误差范围。置信区间越大,置信水平越高。划定置信区间的两个数值分别称为置信下限和置信上限。

区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量时分布规律样本分布的标准误差。也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误差,才能计算总体参数可能落入的区间长度,才能对区间估计的概率进行解释,可见标准误差及样本分布对于总体参数的区间估计是十分重要的。

样本分布可提供概率解释,而标准误差的大小决定区间估计的长度,标准误差越小置信区间的长度越短,而估计成功的概率仍可保持较高水平。一般情况下,加大样本容量可使标准误差变小。

如上所述,区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。但在样本容量一定的情况下,二者不可兼得。如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没做估计了。这就像在百分制的测验中你估计一个人的得分可能为0~100分一样。反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。

统计分析中一般规定:正确估计的概率即置信水平为0.95或0.99,那么显著性水平则为0.05或0.01,这是依据“0.05或0.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的”原理规定的。


2.3.2 假设检验










2.3.3 假设检验的阿里云实现











接下来的几章我们将介绍多个分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型。

需要注意的是,下面几章仅在大数据分析的数学模型和基本方法层面加以讨论,并不涉及其在大数据上的具体实现算法,并给出基于阿里云平台对其进行分析的方法,具体实现算法将在后面的章节中详细讨论。

下面几章实现大数据分析的阿里云工具构建于阿里云MaxCompute、GPU等计算集群之上,汇集了分布式机器学习算法、文本处理算法、图分析算法等,可高效地完成海量、亿级维度数据的复杂计算,并且提供了一套极易操作的可视化编辑页面,大大降低了大数据分析的建模门槛,提高了建模效率,最终帮用户快速得到需要的大数据模型而无须了解其具体实现算法。

需要说明的是,大数据分析模型内容非常丰富,其范畴涵盖了统计学、数据挖掘、图论以及诸多相关领域,很难在一本书中对其进行全面阐述,本书采取广度优先的方式进行介绍,尽可能多地覆盖分析模型,供读者参考。由于篇幅所限,对于模型的性质缺少深度的介绍,对于具体模型的深度讲解可以参考相应的教材和专著,例如《复杂数据统计方法》《多元统计分析导论》和《模式分类》等。

时间: 2024-09-30 12:08:53

《大数据分析原理与实践》——2.3 推断统计的相关文章

《大数据分析原理与实践》一一2.3 推断统计

2.3 推断统计推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论.基本特征是其依据的条件中包含带随机性的观测数据.以随机现象为研究对象的概率论是统计推断的理论基础.它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力:假设检验,即利用样本信息判断对总体的假设是否成立.

《大数据分析原理与实践》——导读

前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应用.大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的. 然而,人们对大数据分析的解读有多个不同方面.从"分析"的角度解读,大数据分析可以看作统计分析的延伸:从 "数据"的角度解读,大数据分析可以看作数据管理与挖掘的扩

《大数据分析原理与实践》——1.4 大数据分析的过程、技术与难点

1.4 大数据分析的过程.技术与难点 1.大数据分析的过程 大数据分析的过程大致分为下面6个步骤: (1)业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上. (2)数据理解 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设. (3)数据准备 数据准备阶段包括从未处理数据中构造最终数据集的所有活动.这些数据将是模型工具

《大数据分析原理与实践》一一1.4 大数据分析的过程、技术与难点

1.4 大数据分析的过程.技术与难点 1.大数据分析的过程 大数据分析的过程大致分为下面6个步骤: (1)业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上. (2)数据理解 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设. (3)数据准备 数据准备阶段包括从未处理数据中构造最终数据集的所有活动.这些数据将是模型工具

《大数据分析原理与实践》——1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

《大数据分析原理与实践》一一第2章 大数据分析模型

第2章 大数据分析模型 大数据分析模型讨论的问题是从大数据中发现什么.尽管对大数据的分析方法林林总总,但面对一项具体应用,大数据分析非常依赖想象力.例如,对患者进行智能导诊,为患者选择合适的医院.合适的科室和合适的医生.可以通过患者对病症的描述建立模型而选择合适的科室:可以基于对患者位置.医院擅长病症的信息以及患者病症的紧急程度建立模型而确定位置合适的医院:还可以根据医院当前的队列信息建立模型进行推荐,如果队列较长则显示已挂号人数较少.等待时间较短的医生资料,如果队列较短则显示那些挂号费和治疗费

《大数据分析原理与实践》——2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处. (1)业务调研 首先需要向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务.对业务的了解无疑是传统建模方法和大数据建模方法都需要的. (2)准备

《大数据分析原理与实践》——1.3 什么是大数据分析

1.3 什么是大数据分析 1.大数据分析的定义 数据分析指的是用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程. 数据分析可以分为三个层次,即描述分析.预测分析和规范分析. 描述分析是探索历史数据并描述发生了什么,这一层次包括发现数据规律的聚类.相关规则挖掘.模式发现和描述数据规律的可视化分析. 预测分析用于预测未来的概率和趋势,例如基于逻辑回归的预测.基于分类器的预测等. 规范分析根据期望的结果.特定场景.资源以及对过去和当前事件的了解