《大数据分析原理与实践》——1.2 哪里有大数据

1.2 哪里有大数据

大数据是无处不在的。

大数据包括那些数目极庞大的网络数据。有自媒体数据(比如社交网络),有日志数据(比如用户在搜索引擎上留下的大数据),还有流量最大的富媒体数据(比如视频、音频)等。例如,淘宝每天的数据量就超过50 TB;新浪微博晚高峰时每秒要接受100万次以上的请求;美国YouTube网站一分钟有100小时的视频被上传。

大数据包括企事业单位数据和政府数据。一家医院一年能收集包括医疗影像、患者信息在内的500 TB数据,用于预测、预防、改善等;中国联通每秒记录用户上网条数近百万条,一个月大概是300 TB;国家电网信息中心目前累计收集了2 PB的数据。

大数据包括我们身边的一些公用设施所记录的数据。就监控而言,很多城市的交通摄像头多达几十万个,一个月的数据就达到数十PB,还有基本上所有的超市都覆盖着摄像头,这些都可以是大数据的基本来源并进行挖掘利用;在北京,每天用公交一卡通的乘客有4000万刷卡记录,而每天地铁刷卡的乘客也有1000万,这些数据可以用来改善北京的交通状况,优化交通路线。

大数据还包括国家大型公用设备和科研设备等产生的数据。例如,波音787每飞一个来回可产生TB级的数据,美国每个月收集360万次飞行记录;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒就要测量一次,数据汇集用于检测叶片、变速箱、变频器等的磨损程度;一个具有风机的风场一年会产生2 PB的数据,这些数据用于预防维护,可使风机寿命延长3年,极大地降低了风机的成本。

工业领域也产生了大量的数据,GE能源监测和诊断(M&D)中心每天从客户处收集10千兆字节的数据;长虹集团有限公司等离子显示板制造中生产流程数据涉及75条组装线,279个主要生产设备,超过10 000个参数,每天3000万条记录,大约10 GB;杭州西奥电梯有限公司的数字化车间监控超过500个参数,每天产生约50万条记录;浙江雅莹服装有限公司数字化生产线由15个子系统组成,超过1000个参数,每天产生约80万条记录,约1 GB。

大数据甚至还包括一些地理位置、基因图谱、天体运动轨迹的数据。总之,任何可以利用数据分析来达到目的的地方就会有大数据的存在。

时间: 2025-01-21 15:29:11

《大数据分析原理与实践》——1.2 哪里有大数据的相关文章

《大数据分析原理与实践》——导读

前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应用.大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的. 然而,人们对大数据分析的解读有多个不同方面.从"分析"的角度解读,大数据分析可以看作统计分析的延伸:从 "数据"的角度解读,大数据分析可以看作数据管理与挖掘的扩

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

《大数据分析原理与实践》一一 3.1 回归分析

3.1 回归分析3.1.1 回归分析概述 1.回归分析的定义 回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量(因变量)与其余变量(自变量)的依赖关系.如果只需考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题.若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题.本小节重点讨论多元回归. 2.回归分析的数学模型 多元回归分析研究因变量Y与m个自变量x1,x2,-,xm的相关关系,而且总是假设因变量Y为随机变量,而x1,x2,-

《大数据分析原理与实践》——1.4 大数据分析的过程、技术与难点

1.4 大数据分析的过程.技术与难点 1.大数据分析的过程 大数据分析的过程大致分为下面6个步骤: (1)业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上. (2)数据理解 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设. (3)数据准备 数据准备阶段包括从未处理数据中构造最终数据集的所有活动.这些数据将是模型工具

《大数据分析原理与实践》一一1.4 大数据分析的过程、技术与难点

1.4 大数据分析的过程.技术与难点 1.大数据分析的过程 大数据分析的过程大致分为下面6个步骤: (1)业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上. (2)数据理解 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设. (3)数据准备 数据准备阶段包括从未处理数据中构造最终数据集的所有活动.这些数据将是模型工具

《大数据分析原理与实践》一一2.3 推断统计

2.3 推断统计推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论.基本特征是其依据的条件中包含带随机性的观测数据.以随机现象为研究对象的概率论是统计推断的理论基础.它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力:假设检验,即利用样本信息判断对总体的假设是否成立.

《大数据分析原理与实践》——2.3 推断统计

2.3 推断统计 推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论.基本特征是其依据的条件中包含带随机性的观测数据.以随机现象为研究对象的概率论是统计推断的理论基础.它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力:假设检验,即利用样本信息判断对总体的假设是否成立

《大数据分析原理与实践》——3.1 回归分析

3.1 回归分析 3.1.1 回归分析概述 1.回归分析的定义 回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量(因变量)与其余变量(自变量)的依赖关系.如果只需考察一个变量与其余多个变量之间的相互依赖关系,我们称为多元回归问题.若要同时考察多个因变量与多个自变量之间的相互依赖关系,我们称为多因变量的多元回归问题.本小节重点讨论多元回归. 2.回归分析的数学模型 3.回归分析的基本计算方法 这里概述回归分析的基本计算方法,关于大数据的回归算法在11.2节中讨论.回归分析的主要

《大数据分析原理与实践》——2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处. (1)业务调研 首先需要向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务.对业务的了解无疑是传统建模方法和大数据建模方法都需要的. (2)准备

《大数据分析原理与实践》——1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础