《大数据分析原理与实践》一一第1章绪　　论 1.1　什么是大数据

第1章绪　　论 1.1　什么是大数据

1.大数据的定义
“大数据”的概念起源于2008年9月《自然》（Nature）杂志刊登的名为“Big Data”的专题。2011年《科学》（Science）杂志也推出专刊“Dealing with Data”对大数据的计算问题进行讨论。谷歌、雅虎、亚马逊等著名企业在此基础上，总结了他们利用积累的海量数据为用户提供更加人性化服务的方法，进一步完善了“大数据”的概念。
根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
在维克托·迈尔–舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中，大数据指的是不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。
“大数据”研究机构Gartner将“大数据”定义为需要新处理模式才能具有更强的决策
力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的背景
一般来说，大数据泛指巨量的数据集。当今社会，互联网尤其是移动互联网的发展，显著地加快了信息化向社会经济以及大众生活等各方面的渗透，促使了大数据时代的到来。近年来，人们能明显地感受到大数据来势迅猛。据有关资料显示，1998年，全球网民平均每月使用流量是1 MB，2003年是100 MB，而2014年是10 GB；全网流量累计达到1EB（即10亿GB）的时间在2001年是一年，在2004年是一个月，而在2013年仅需要一天，即一天产生的信息量可刻满1.88亿张DVD光盘。事实上，我国网民数居世界首位，产生的数据量也位于世界前列，这其中包括淘宝网站每天超数千万次的交易所产生的超50 TB的数据，包括百度搜索每天生成的几十PB的数据，也包括城市里大大小小的摄像头每月产生的几十PB的数据，甚至还包括医院里CT影像抑或门诊所记录的信息。总之，大到学校、医院、银行、企业的系统行业信息，小到个人的一次百度搜索、一次地铁刷卡，大数据存在于各行各业，存在于民众生活的边边角角。
另一方面，大数据因自身可挖掘的高价值而受到重视。国家的宽带化战略的实施，云计算服务的起步、物联网的广泛应用和移动互联网崛起的同时，数据处理能力也迅速发展，数据积累到一定程度，其资料属性将更加明晰，显示出开发的价值。同时，社会的节奏越来越快，要求快速反应和精细管理，急需借助对数据的分析和科学的决策，这样，我们便需要对上面所说的形形色色的海量数据进行开发。也就是说，大数据的时代来了。
有学者称，大数据将引发生活、工作和思维的革命；《华尔街日报》将大数据称为引领未来繁荣的三大技术变革之一；麦肯锡公司的报告指出，数据是一种生产资料，大数据将是下一个创新、竞争、生产力提高的前沿；世界经济论坛的报告认为大数据是新财富，价值堪比石油；等等。因此，大数据的开发利用将成为各个国家抢占的新的制高点。
3.大数据的特点
大数据是相对于一般数据而言的，目前对大数据尚缺乏权威的严格定义，通常大家用“4V”来反映大数据的特征：
1）Volume（规模性）：大数据之“大”，体现在数据的存储和计算均需要耗费海量规模的资源上。规模大是大数据最重要的标志之一，事实上，数据只要有足够的规模就可以称为大数据。数据的规模越大，通常对数据挖掘所得到的事物演变规律越可信，数据的分析结果也越具有代表性。例如，美国宇航局收集和处理的气候观察、模拟数据达到32 PB；而FICO的信用卡欺诈检测系统要监测全世界超过18亿个活跃信用卡账户。不过，现在也有学者认为，社会对大数据的关注，更多地应引导到对数据资源获得与利用的重视上来，因为对于某些中小数据的挖掘也有价值，目前报道的一些大数据挖掘的应用例子，不少只是TB级的规模。
2）Velocity（高速性）：大数据的另一特点在于数据增长速度快，急需及时处理。例如，大型强子对撞机实验设备中包含15亿个传感器，平均每秒钟收集超过4亿的实验数据；同样在一秒钟里，有超过3万次用户查询提交到谷歌，3万微博被用户撰写。而人们对数据处理的速度的要求也日益严格，力图跟上社会的节奏，有报道称，美国中情局就要求利用大数据将分析搜集数据的时间由63天缩短为27分钟。
3）Variety（多样性）：在大数据背景下，数据在来源和形式上的多样性愈加突出。除以结构化形式存在的关系数据，网络上也存在大量的位置、图片、音频、视频等非结构化信息。其中，视频等非结构化数据占很大比例，有数据表明，到2016年，全部互联网流量中，视频数据将达到55%，那么，有理由相信，大数据中90%都将是非结构化数据。并且，大数据不仅仅在形式上表现出多元化，其信息来源也表现出多样性，大致可将其分为网络数据、企事业单位数据、政府数据、媒体数据等几种。
4）Value（高价值性）：大数据价值总量大，但价值稀疏，即知识密度低。大数据以其高价值吸引了全世界的关注，据全球著名咨询公司麦肯锡报告：“如果能够有效地利用大数据来提高效率和质量，预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元，能够使得美国医疗卫生支出降低8%。”然而，大数据的知识密度非常低，IBM副总裁CTO Dietrich表示：“可以利用Twitter数据获得用户对某个产品的评价，但是往往上百万条记录中只有很小的一部分真正讨论这款产品。”并且，虽然数据规模与数据挖掘得到的价值之间有相关性，但是两者难以用线性关系表达。这取决于数据的价值密度，同一事件的不同数据集即便有相同的规模（例如对同一观察对象收集的长时间稀疏数据和短时间密集数据），其价值也可以相差很多，因为数据集“含金量”不同，大数据中多数数据是重复的，忽略其中一些数据并不影响对其挖掘的结果。
注意，大数据之所以难处理不仅在于规模大，更大的挑战是其随时间的变化快和类型的多样性，随时间和类型的变化增加了大数据的复杂性，同时也丰富了大数据的内涵。对大数据仅仅冠以“大”这一形容词是不全面的，只不过在大数据“4V”中，规模相对于变化和类型这两个特征量来说容易定量。而且即便是单一类型的数据集，只要有足够的规模也能称得上是大数据。当然，数据的规模越大，通常对数据挖掘所得到的事物演变规律越可信，数据分析的结果也越有代表性。因此对大数据这一词汇突出“规模大”这一特征是可以理解的。
另外，大数据除了需要有足够规模的数据，还有可能涉及一定的时间或空间跨度，即要具有普遍性。例如，每分钟将一个人的身体数据记录下来以了解其身体状况，是有效的，如果将频率改为每秒钟，数据规模有所增加，但其价值并无提升。显然，数据样本密度与被观察对象有关，如风力发电机的很多传感器每毫秒就要检测一次，以检查叶片等的磨损程度。

时间： 2024-09-30 12:08:57

《大数据分析原理与实践》一一第1章绪　　论 1.1　什么是大数据

第1章绪　　论 1.1　什么是大数据

《大数据分析原理与实践》一一第1章绪　　论 1.1　什么是大数据的相关文章

《大数据分析原理与实践》——第1章绪论 1.1 什么是大数据

《大数据分析原理与实践》——第3章关联分析模型

《大数据分析原理与实践》一一2.3　推断统计

《大数据分析原理与实践》一一1.5　全书概览

《大数据分析原理与实践》——2.3　推断统计

《大数据分析原理与实践》——1.5　全书概览

《大数据分析原理与实践》一一1.4　大数据分析的过程、技术与难点

《大数据分析原理与实践》一一1.3　什么是大数据分析

《大数据分析原理与实践》一一2.1　大数据分析模型建立方法

《大数据分析原理与实践》一一第1章 绪 论 1.1 什么是大数据

第1章 绪 论 1.1 什么是大数据

《大数据分析原理与实践》一一第1章 绪 论 1.1 什么是大数据的相关文章

《大数据分析原理与实践》一一第1章绪　　论 1.1　什么是大数据

第1章绪　　论 1.1　什么是大数据

《大数据分析原理与实践》一一第1章绪　　论 1.1　什么是大数据的相关文章