《大数据算法》一第1章　绪论

第1章　绪论

1.1　大数据概述

毫无疑问，大数据已经成为一个热门的概念，然而，不同领域（例如商业、系统结构、数据管理等）对这个概念的解读却各不相同。本节我们对大数据的定义、特点和应用进行概述。

1.1.1　什么是大数据

“大数据”的概念起源于2008年9月《自然》（Nature）杂志刊登的名为“Big Data”的专题，继而迅速得到了科学、计算机、经济等不同领域专家的响应。由于其成因复杂，对大数据目前没有公认的定义，不同的研究人员从不同领域对大数据进行了定义，下面列出三个不同角度对大数据的定义。
1) Kusnetzky Dan在What is “Big Data?”一文中提出，大数据是指所涉及的数据量规模巨大，无法通过人工在合理时间内截取、管理、处理并整理成为人类所能解读的信息。
2) 维克托·迈尔舍恩伯格、肯尼斯·库克耶在《大数据时代》一书中把大数据看成一种方法，即不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法。
3) “大数据”研究机构Gartner的报告指出，“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
这三种定义中，第一种定义更强调处理能力，第二种定义更强调应用方法，第三种定义更侧重应用价值。本书的主题是“大数据算法”，因而更加侧重于第一种定义，即“规模巨大，无法通过人工来处理”。

1.1.2　无处不在的大数据

现实生活中的数据有多大呢？根据统计，在2006年，个人用户刚刚迈进TB时代，这一年全球共产生了约180EB=180×1018字节的数据；在2011年，达到了1.8ZB=1.8×1021字节。有市场研究机构预测：到2020年，整个世界的数据总量将会增长44倍。你也许会好奇为何会产生如此庞大的数据，下面我们举几个现实中的大数据例子。
社交网络　由于数据来自所有用户的参与，社交网络中的数据量非常大，而且增长非常迅速。例如，新浪微博在晚高峰的时候1秒产生的数据达到100条以上。如果把脸书（Facebook）中的社交网络看成图，在2012年这个图已经达到了超过8亿个顶点，平均每个点的度超过130，每天增加的数据量达到500TB。

科学仪器　科学仪器获取了非常巨大的数据，比如说中国遥感国家重点实验室采集的中国大陆地表信息，每个月产生4TB数据。中国天文观测站用LAMOST每年观测到的数据达到3.65TB，美国NASA中心每年获取超过125TB的数据，英国Sanger中心2002年就已经收集了20TB的数据，并且以每年4倍的速度增长。
移动通信　我们每天使用的手机产生了非常巨大的数据，中国移动每年产生的记录超过300TB。
传感数据　传感器持续检测环境信息并不断返回结果，产生了巨大的数据。以波音787为例，其每一个飞行来回可产生TB级的数据，美国每个月收集360万次飞行记录；监视所有飞机中的25000个引擎，每个引擎一天产生588GB的数据。风力发电机装有测量风速、螺距、油温等多种传感器，每隔几毫秒测一次，用于检测叶片、变速箱、变频器等的磨损程度，一个具有500个风机的风场一年会产生2PB的数据。
医疗数据　美国著名医疗保健公司InSiteOne平均每年获取2.1PB的放射影像数据，英国每年产生300TB乳腺癌数据，在美国相应的数据量达到2.6PB。哈尔滨医科大学第一附属医院每年通过各类医疗仪器搜集的数据超过30TB。
商务数据　生活中的每次刷卡，在超市或者网络中购买的每件商品都产生相应的数据。淘宝网站每天有超过数千万笔交易，单日数据产生量超过50TB。为了有效使用商务大数据，沃尔玛建立了包含PB级数据的数据仓库，Bestbuy建立了包含TB级数据的数据仓库。
补充知识：数据的概念相信读者已经很熟悉，“大数据”重点是大，我们下面看一些关于“大”的定义。

计算机的发展史一直和“大”的定义紧密相连，例如关于硬盘的存储量就经历了一个从KB发展到MB，再发展到TB的过程。英语对“字节”的计数法如下:

1Byte=8bit
1KB=1024Byte
1MB=1024KB=1048576Byte
1GB=1024MB=1048576KB
1TB=1024GB=1048576MB
1PB=1024TB=1048576GB

1EB=1024PB=1048576TB
1ZB=1024EB=1048576PB
1YB=1024ZB=1048576EB
1BB=1024YB=1048576ZB
1NB=1024BB=1048576YB
1DB=1024NB=1048576BB

汉语计数能力更强一点，可以达到1044，具体的值如下：

1.1.3　大数据的特点

通常用3V或者4V来描述大数据的特点，本小节用4V描述大数据的特点。
1.规模性(Volume，耗费大量存储、计算资源）
大数据之“大”，体现在数据的存储和计算均需耗费海量规模的资源上：美国宇航局收集和处理的气候观察、模拟数据达到32PB；谷歌公司索引的网页总数超过1万亿；FICO的信用卡欺诈检测系统保护全世界超过18亿个活跃信用卡账户。
2.高速性（Velocity，增长迅速、急需实时处理）
大数据的另一特点在于速度快：大型强子对撞机实验设备中包含了15亿个传感器，平均每秒收集超过4亿条实验数据；每秒超过3万次用户查询提交到谷歌，3万条微博被新浪用户撰写。而在感知、传输、决策、控制这一闭环控制过程中的计算，对数据实时处理有着极高的要求，通过传统数据库查询方式得到的“当前结果”很可能已经没有价值，只有最新的数据才有价值。
3.多样性（Variety，来源广泛、形式多样）
在大数据背景下，数据在来源和形式上的多样性愈加凸显：除大量以非结构化形式存在的文本数据，也存在位置、图片、音频、视频等信息。除信息形式的多元化，信息的来源也表现出多样性：从网络日志、物联网、移动设备、传感器到基因图谱、医疗影像、天体运行轨迹、交通物流数据等。大数据中的多样性已经超越了数据管理中的异构数据库，其不仅仅是模式或模型的不一样，甚至数据本身的存在形式也完全不同，比如说存在文本、多媒体数据，也存在仪器采集来的完全是数字的数据，以及用户产生的用户行为的数据，这些数据有各种各样的存在形式，这些形式导致处理技术的差异，因此需要新的处理技术。
4.价值稀疏性（Value,价值总量大、知识密度低）
大数据以其高价值吸引了广泛关注。据全球著名咨询公司麦肯锡报告:“如果能够有效地利用大数据来提高效率和质量，预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元，能够使美国医疗卫生支出降低8%。”虽然大数据价值高，但是知识密度非常低。谷歌公司首席经济学家Hal Varian指出“数据是广泛可用的，所缺乏的是从中提取出知识的能力”；IBM副总裁兼CTO Dietrich表示“可以利用Twitter数据获得用户对某个产品的评价，但是往往上百万条记录中只有很小的一部分真正讨论这款产品”。
只有经过高度分析的大数据才可以产生新的价值，需要设计能够适应上述特征的大数据处理算法来处理数据。

1.1.4　大数据的应用

大数据在许多方面有着广泛的应用，甚至说达到了无处不在的程度，本小节将讨论若干大数据的典型应用。
1.预测
2013年2月19日，微软研究院的David Rothschil博士带领的大数据分析团队通过分析入围影片相关数据，预测出2013年各项奥斯卡大奖的最终归属，成功命中除最佳导演奖(华裔导演李安获得)外的13项大奖。
《纽约时报》FiveThirtyEight的博客作者和统计学家Nate Silver预测：奥巴马有超过80％的机会赢得周二的大选（后来提升到90.9%）；David Rothschild带领的分析团队，在2012年使用一个通用的数据驱动型模型，预测了美国50个州和哥伦比亚特区共计51个选区中50个地区的选举结果，准确率高于98%。
日本国内有一个网站，你只要打开这个网站用自己的Twitter账号登录，就可以在短时间内通过数万条Twitter找出可能感冒的人，并对过去的感冒情况和今日的感冒情况进行分析（以及统计目前发烧以及嗓子痛的患者数量）。另外该程序还会结合气温和湿度的变化来预测将来感冒的流行情况，并开发了一个“易感冒日历”。通过这个服务，人们就能知道身边有多少人有感冒的症状，并提前做好预防。
2.推荐
商务信息推荐和我们每天的生活息息相关，用户在淘宝、京东、卓越等电子商务网站上购物的时候，网站会为我们推荐相关的商品，这些推荐来自大数据。商家采集了大量的用户行为信息，包括购买、浏览、评价等，根据这些行为信息预测当前使用这个网站的用户下一步可能有哪些行为，再根据预测的结果来给用户推荐他最需要的商品，从而提高用户的购买效率。推荐是很多网站的重要盈利模式，借助推荐技术，大数据能够为电子商务带来价值。
3.商业情报分析
为了对营销情况进行有效分析，沃尔玛建立了PB级的数据仓库，使得在线完成购物率提高了10%到15%。连锁超市特易购(Tesco PLC)在数据仓库中搜集了700多万个冰箱的数据，通过对这些数据的分析，能够全面监控冰箱状况，并且根据监控和预测的结果，对这些冰箱进行主动维修，从而降低能耗。还有一些案例，比如说有一家牛排店，通过分析Twitter大数据知道哪些人可能是常客，根据客户以往的订单，推测出其所乘的航班，然后派出一位身着燕尾服的侍者为客户提供晚餐，通过这样的服务吸引了越来越多的熟客。
4.科学研究
今天的科学研究已经超越了牛顿的时代。从历史上看，第谷积攒了大量的天文数据，开普勒通过数据的分析得到了天体三大运动定律，当时计算靠手工进行，需要人工分析，缺少计算机这样有效的计算工具，如果当年有大数据的处理方法的话，开普勒三大运动定律可能更早出来。今天大量的科学仪器产生了海量的数据，这样的数据量已经不是人拿纸拿笔就能分析的，而是需要强大的数据处理能力。今天，由于大数据的支持，科学研究由假设驱动转向基于探索的科学方法，过去设问“我应该设计什么样的实验来验证这个假设？”，现在设问“从这些数据中我能够看到什么？”和“如果把其他领域的数据融合进来，能够发现什么？”，数据密集型科学发现被称为“科学研究的第四范式”。以美国能源部为例，其提出了基于大数据科学研究的支持计划，包括生物和环境的研究计划、大气辐射测量气候的研究计划以及系统生物学的知识库对微生物和植物环境这些功能群落的识别。

补充知识：科学研究的范式
第一范式：几千年前，也就是亚里士多德的时代，科学研究是基于经验的，用于描述自然现象。
第二范式：数百年前，也就是牛顿的时代，科学研究是基于理论研究的，着眼于建立数学模型并进行推广。
第三范式：几十年前，开始了基于计算的科学研究，通过强大的能力，得以模拟复杂的自然现象。
第四范式：也叫作eScience，基于数据探索的科学研究，利用仪器获取数据或者利用模拟器生成数据，再利用软件进行处理，将知识或信息存储在计算机中，科学家利用数据管理技术和统计方法进行科学发现。