《大数据分析原理与实践》——第1章 绪论 1.1 什么是大数据

第1章

绪  论

1.1 什么是大数据

1.大数据的定义

“大数据”的概念起源于2008年9月《自然》(Nature)杂志刊登的名为“Big Data”的专题。2011年《科学》(Science)杂志也推出专刊“Dealing with Data”对大数据的计算问题进行讨论。谷歌、雅虎、亚马逊等著名企业在此基础上,总结了他们利用积累的海量数据为用户提供更加人性化服务的方法,进一步完善了“大数据”的概念。

根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

在维克托·迈尔–舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指的是不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

“大数据”研究机构Gartner将“大数据”定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.大数据的背景

一般来说,大数据泛指巨量的数据集。当今社会,互联网尤其是移动互联网的发展,显著地加快了信息化向社会经济以及大众生活等各方面的渗透,促使了大数据时代的到来。近年来,人们能明显地感受到大数据来势迅猛。据有关资料显示,1998年,全球网民平均每月使用流量是1 MB,2003年是100 MB,而2014年是10 GB;全网流量累计达到1EB(即10亿GB)的时间在2001年是一年,在2004年是一个月,而在2013年仅需要一天,即一天产生的信息量可刻满1.88亿张DVD光盘。事实上,我国网民数居世界首位,产生的数据量也位于世界前列,这其中包括淘宝网站每天超数千万次的交易所产生的超50 TB的数据,包括百度搜索每天生成的几十PB的数据,也包括城市里大大小小的摄像头每月产生的几十PB的数据,甚至还包括医院里CT影像抑或门诊所记录的信息。总之,大到学校、医院、银行、企业的系统行业信息,小到个人的一次百度搜索、一次地铁刷卡,大数据存在于各行各业,存在于民众生活的边边角角。

另一方面,大数据因自身可挖掘的高价值而受到重视。国家的宽带化战略的实施,云计算服务的起步、物联网的广泛应用和移动互联网崛起的同时,数据处理能力也迅速发展,数据积累到一定程度,其资料属性将更加明晰,显示出开发的价值。同时,社会的节奏越来越快,要求快速反应和精细管理,急需借助对数据的分析和科学的决策,这样,我们便需要对上面所说的形形色色的海量数据进行开发。也就是说,大数据的时代来了。

有学者称,大数据将引发生活、工作和思维的革命;《华尔街日报》将大数据称为引领未来繁荣的三大技术变革之一;麦肯锡公司的报告指出,数据是一种生产资料,大数据将是下一个创新、竞争、生产力提高的前沿;世界经济论坛的报告认为大数据是新财富,价值堪比石油;等等。因此,大数据的开发利用将成为各个国家抢占的新的制高点。

3.大数据的特点

大数据是相对于一般数据而言的,目前对大数据尚缺乏权威的严格定义,通常大家用“4V”来反映大数据的特征:

1)Volume(规模性):大数据之“大”,体现在数据的存储和计算均需要耗费海量规模的资源上。规模大是大数据最重要的标志之一,事实上,数据只要有足够的规模就可以称为大数据。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据的分析结果也越具有代表性。例如,美国宇航局收集和处理的气候观察、模拟数据达到32 PB;而FICO的信用卡欺诈检测系统要监测全世界超过18亿个活跃信用卡账户。不过,现在也有学者认为,社会对大数据的关注,更多地应引导到对数据资源获得与利用的重视上来,因为对于某些中小数据的挖掘也有价值,目前报道的一些大数据挖掘的应用例子,不少只是TB级的规模。

2)Velocity(高速性):大数据的另一特点在于数据增长速度快,急需及时处理。例如,大型强子对撞机实验设备中包含15亿个传感器,平均每秒钟收集超过4亿的实验数据;同样在一秒钟里,有超过3万次用户查询提交到谷歌,3万微博被用户撰写。而人们对数据处理的速度的要求也日益严格,力图跟上社会的节奏,有报道称,美国中情局就要求利用大数据将分析搜集数据的时间由63天缩短为27分钟。

3)Variety(多样性):在大数据背景下,数据在来源和形式上的多样性愈加突出。除以结构化形式存在的关系数据,网络上也存在大量的位置、图片、音频、视频等非结构化信息。其中,视频等非结构化数据占很大比例,有数据表明,到2016年,全部互联网流量中,视频数据将达到55%,那么,有理由相信,大数据中90%都将是非结构化数据。并且,大数据不仅仅在形式上表现出多元化,其信息来源也表现出多样性,大致可将其分为网络数据、企事业单位数据、政府数据、媒体数据等几种。

4)Value(高价值性):大数据价值总量大,但价值稀疏,即知识密度低。大数据以其高价值吸引了全世界的关注,据全球著名咨询公司麦肯锡报告:“如果能够有效地利用大数据来提高效率和质量,预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够使得美国医疗卫生支出降低8%。”然而,大数据的知识密度非常低,IBM副总裁CTO Dietrich表示:“可以利用Twitter数据获得用户对某个产品的评价,但是往往上百万条记录中只有很小的一部分真正讨论这款产品。”并且,虽然数据规模与数据挖掘得到的价值之间有相关性,但是两者难以用线性关系表达。这取决于数据的价值密度,同一事件的不同数据集即便有相同的规模(例如对同一观察对象收集的长时间稀疏数据和短时间密集数据),其价值也可以相差很多,因为数据集“含金量”不同,大数据中多数数据是重复的,忽略其中一些数据并不影响对其挖掘的结果。

注意,大数据之所以难处理不仅在于规模大,更大的挑战是其随时间的变化快和类型的多样性,随时间和类型的变化增加了大数据的复杂性,同时也丰富了大数据的内涵。对大数据仅仅冠以“大”这一形容词是不全面的,只不过在大数据“4V”中,规模相对于变化和类型这两个特征量来说容易定量。而且即便是单一类型的数据集,只要有足够的规模也能称得上是大数据。当然,数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性。因此对大数据这一词汇突出“规模大”这一特征是可以理解的。

另外,大数据除了需要有足够规模的数据,还有可能涉及一定的时间或空间跨度,即要具有普遍性。例如,每分钟将一个人的身体数据记录下来以了解其身体状况,是有效的,如果将频率改为每秒钟,数据规模有所增加,但其价值并无提升。显然,数据样本密度与被观察对象有关,如风力发电机的很多传感器每毫秒就要检测一次,以检查叶片等的磨损程度。

时间: 2024-09-18 12:44:14

《大数据分析原理与实践》——第1章 绪论 1.1 什么是大数据的相关文章

《大数据分析原理与实践》——1.4 大数据分析的过程、技术与难点

1.4 大数据分析的过程.技术与难点 1.大数据分析的过程 大数据分析的过程大致分为下面6个步骤: (1)业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上. (2)数据理解 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设. (3)数据准备 数据准备阶段包括从未处理数据中构造最终数据集的所有活动.这些数据将是模型工具

《大数据分析原理与实践》一一1.4 大数据分析的过程、技术与难点

1.4 大数据分析的过程.技术与难点 1.大数据分析的过程 大数据分析的过程大致分为下面6个步骤: (1)业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上. (2)数据理解 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设. (3)数据准备 数据准备阶段包括从未处理数据中构造最终数据集的所有活动.这些数据将是模型工具

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

《大数据分析原理与实践》一一第1章 绪  论 1.1 什么是大数据

第1章 绪 论 1.1 什么是大数据 1.大数据的定义"大数据"的概念起源于2008年9月<自然>(Nature)杂志刊登的名为"Big Data"的专题.2011年<科学>(Science)杂志也推出专刊"Dealing with Data"对大数据的计算问题进行讨论.谷歌.雅虎.亚马逊等著名企业在此基础上,总结了他们利用积累的海量数据为用户提供更加人性化服务的方法,进一步完善了"大数据"的概念.根据

《大数据分析原理与实践》一一第2章 大数据分析模型

第2章 大数据分析模型 大数据分析模型讨论的问题是从大数据中发现什么.尽管对大数据的分析方法林林总总,但面对一项具体应用,大数据分析非常依赖想象力.例如,对患者进行智能导诊,为患者选择合适的医院.合适的科室和合适的医生.可以通过患者对病症的描述建立模型而选择合适的科室:可以基于对患者位置.医院擅长病症的信息以及患者病症的紧急程度建立模型而确定位置合适的医院:还可以根据医院当前的队列信息建立模型进行推荐,如果队列较长则显示已挂号人数较少.等待时间较短的医生资料,如果队列较短则显示那些挂号费和治疗费

《大数据分析原理与实践》一一2.3 推断统计

2.3 推断统计推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论.基本特征是其依据的条件中包含带随机性的观测数据.以随机现象为研究对象的概率论是统计推断的理论基础.它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力:假设检验,即利用样本信息判断对总体的假设是否成立.

《大数据分析原理与实践》——导读

前 言 本书的缘起与成书过程 大数据经过分析能够产生高价值,这无疑已在大数据火爆的今天成为共识,从而使得大数据分析在"大数据+"涉及的领域(如工业.医疗.农业.教育等)有了广泛的应用.大数据分析的相关知识不仅是大数据行业的从业人员应该必备的,也是和大数据相关的各行各业的从业者需要了解的. 然而,人们对大数据分析的解读有多个不同方面.从"分析"的角度解读,大数据分析可以看作统计分析的延伸:从 "数据"的角度解读,大数据分析可以看作数据管理与挖掘的扩

《大数据分析原理与实践》——2.3 推断统计

2.3 推断统计 推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论.基本特征是其依据的条件中包含带随机性的观测数据.以随机现象为研究对象的概率论是统计推断的理论基础.它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力:假设检验,即利用样本信息判断对总体的假设是否成立

《大数据分析原理与实践》——2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处. (1)业务调研 首先需要向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务.对业务的了解无疑是传统建模方法和大数据建模方法都需要的. (2)准备