《大数据算法》一第1章 绪论

第1章 绪论

1.1 大数据概述

毫无疑问,大数据已经成为一个热门的概念,然而,不同领域(例如商业、系统结构、数据管理等)对这个概念的解读却各不相同。本节我们对大数据的定义、特点和应用进行概述。

1.1.1 什么是大数据

“大数据”的概念起源于2008年9月《自然》(Nature)杂志刊登的名为“Big Data”的专题,继而迅速得到了科学、计算机、经济等不同领域专家的响应。由于其成因复杂,对大数据目前没有公认的定义,不同的研究人员从不同领域对大数据进行了定义,下面列出三个不同角度对大数据的定义。
1) Kusnetzky Dan在What is “Big Data?”一文中提出,大数据是指所涉及的数据量规模巨大,无法通过人工在合理时间内截取、管理、处理并整理成为人类所能解读的信息。
2) 维克托·迈尔舍恩伯格、肯尼斯·库克耶在《大数据时代》一书中把大数据看成一种方法,即不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
3) “大数据”研究机构Gartner的报告指出,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
这三种定义中,第一种定义更强调处理能力,第二种定义更强调应用方法,第三种定义更侧重应用价值。本书的主题是“大数据算法”,因而更加侧重于第一种定义,即“规模巨大,无法通过人工来处理”。

1.1.2 无处不在的大数据

现实生活中的数据有多大呢?根据统计,在2006年,个人用户刚刚迈进TB时代,这一年全球共产生了约180EB=180×1018字节的数据;在2011年,达到了1.8ZB=1.8×1021字节。有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍。你也许会好奇为何会产生如此庞大的数据,下面我们举几个现实中的大数据例子。
社交网络 由于数据来自所有用户的参与,社交网络中的数据量非常大,而且增长非常迅速。例如,新浪微博在晚高峰的时候1秒产生的数据达到100条以上。如果把脸书(Facebook)中的社交网络看成图,在2012年这个图已经达到了超过8亿个顶点,平均每个点的度超过130,每天增加的数据量达到500TB。

  • 科学仪器 科学仪器获取了非常巨大的数据,比如说中国遥感国家重点实验室采集的中国大陆地表信息,每个月产生4TB数据。中国天文观测站用LAMOST每年观测到的数据达到3.65TB,美国NASA中心每年获取超过125TB的数据,英国Sanger中心2002年就已经收集了20TB的数据,并且以每年4倍的速度增长。
  • 移动通信 我们每天使用的手机产生了非常巨大的数据,中国移动每年产生的记录超过300TB。
  • 传感数据 传感器持续检测环境信息并不断返回结果,产生了巨大的数据。以波音787为例,其每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视所有飞机中的25000个引擎,每个引擎一天产生588GB的数据。风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度,一个具有500个风机的风场一年会产生2PB的数据。
  • 医疗数据 美国著名医疗保健公司InSiteOne平均每年获取2.1PB的放射影像数据,英国每年产生300TB乳腺癌数据,在美国相应的数据量达到2.6PB。哈尔滨医科大学第一附属医院每年通过各类医疗仪器搜集的数据超过30TB。
  • 商务数据 生活中的每次刷卡,在超市或者网络中购买的每件商品都产生相应的数据。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB。为了有效使用商务大数据,沃尔玛建立了包含PB级数据的数据仓库,Bestbuy建立了包含TB级数据的数据仓库。
    补充知识:数据的概念相信读者已经很熟悉,“大数据”重点是大,我们下面看一些关于“大”的定义。

计算机的发展史一直和“大”的定义紧密相连,例如关于硬盘的存储量就经历了一个从KB发展到MB,再发展到TB的过程。英语对“字节”的计数法如下:

1Byte=8bit
1KB=1024Byte
1MB=1024KB=1048576Byte
1GB=1024MB=1048576KB
1TB=1024GB=1048576MB
1PB=1024TB=1048576GB

1EB=1024PB=1048576TB
1ZB=1024EB=1048576PB
1YB=1024ZB=1048576EB
1BB=1024YB=1048576ZB
1NB=1024BB=1048576YB
1DB=1024NB=1048576BB

汉语计数能力更强一点,可以达到1044,具体的值如下:

千1000
万104
亿108
兆1012
京1016
垓1020
秭1024
穰1028
沟1032
涧1036
正1040
载1044

1.1.3 大数据的特点

通常用3V或者4V来描述大数据的特点,本小节用4V描述大数据的特点。
1.规模性(Volume,耗费大量存储、计算资源)
大数据之“大”,体现在数据的存储和计算均需耗费海量规模的资源上:美国宇航局收集和处理的气候观察、模拟数据达到32PB;谷歌公司索引的网页总数超过1万亿;FICO的信用卡欺诈检测系统保护全世界超过18亿个活跃信用卡账户。
2.高速性(Velocity,增长迅速、急需实时处理)
大数据的另一特点在于速度快:大型强子对撞机实验设备中包含了15亿个传感器,平均每秒收集超过4亿条实验数据;每秒超过3万次用户查询提交到谷歌,3万条微博被新浪用户撰写。而在感知、传输、决策、控制这一闭环控制过程中的计算,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值,只有最新的数据才有价值。
3.多样性(Variety,来源广泛、形式多样)
在大数据背景下,数据在来源和形式上的多样性愈加凸显:除大量以非结构化形式存在的文本数据,也存在位置、图片、音频、视频等信息。除信息形式的多元化,信息的来源也表现出多样性:从网络日志、物联网、移动设备、传感器到基因图谱、医疗影像、天体运行轨迹、交通物流数据等。大数据中的多样性已经超越了数据管理中的异构数据库,其不仅仅是模式或模型的不一样,甚至数据本身的存在形式也完全不同,比如说存在文本、多媒体数据,也存在仪器采集来的完全是数字的数据,以及用户产生的用户行为的数据,这些数据有各种各样的存在形式,这些形式导致处理技术的差异,因此需要新的处理技术。
4.价值稀疏性(Value,价值总量大、知识密度低)
大数据以其高价值吸引了广泛关注。据全球著名咨询公司麦肯锡报告:“如果能够有效地利用大数据来提高效率和质量,预计美国医疗行业每年通过数据获得的潜在价值可超过3000亿美元,能够使美国医疗卫生支出降低8%。”虽然大数据价值高,但是知识密度非常低。谷歌公司首席经济学家Hal Varian指出“数据是广泛可用的,所缺乏的是从中提取出知识的能力”;IBM副总裁兼CTO Dietrich表示“可以利用Twitter数据获得用户对某个产品的评价,但是往往上百万条记录中只有很小的一部分真正讨论这款产品”。
只有经过高度分析的大数据才可以产生新的价值,需要设计能够适应上述特征的大数据处理算法来处理数据。

1.1.4 大数据的应用

大数据在许多方面有着广泛的应用,甚至说达到了无处不在的程度,本小节将讨论若干大数据的典型应用。
1.预测
2013年2月19日,微软研究院的David Rothschil博士带领的大数据分析团队通过分析入围影片相关数据,预测出2013年各项奥斯卡大奖的最终归属,成功命中除最佳导演奖(华裔导演李安获得)外的13项大奖。
《纽约时报》FiveThirtyEight的博客作者和统计学家Nate Silver预测:奥巴马有超过80%的机会赢得周二的大选(后来提升到90.9%);David Rothschild带领的分析团队,在2012年使用一个通用的数据驱动型模型,预测了美国50个州和哥伦比亚特区共计51个选区中50个地区的选举结果,准确率高于98%。
日本国内有一个网站,你只要打开这个网站用自己的Twitter账号登录,就可以在短时间内通过数万条Twitter找出可能感冒的人,并对过去的感冒情况和今日的感冒情况进行分析(以及统计目前发烧以及嗓子痛的患者数量)。另外该程序还会结合气温和湿度的变化来预测将来感冒的流行情况,并开发了一个“易感冒日历”。通过这个服务,人们就能知道身边有多少人有感冒的症状,并提前做好预防。
2.推荐
商务信息推荐和我们每天的生活息息相关,用户在淘宝、京东、卓越等电子商务网站上购物的时候,网站会为我们推荐相关的商品,这些推荐来自大数据。商家采集了大量的用户行为信息,包括购买、浏览、评价等,根据这些行为信息预测当前使用这个网站的用户下一步可能有哪些行为,再根据预测的结果来给用户推荐他最需要的商品,从而提高用户的购买效率。推荐是很多网站的重要盈利模式,借助推荐技术,大数据能够为电子商务带来价值。
3.商业情报分析
为了对营销情况进行有效分析,沃尔玛建立了PB级的数据仓库,使得在线完成购物率提高了10%到15%。连锁超市特易购(Tesco PLC)在数据仓库中搜集了700多万个冰箱的数据,通过对这些数据的分析,能够全面监控冰箱状况,并且根据监控和预测的结果,对这些冰箱进行主动维修,从而降低能耗。还有一些案例,比如说有一家牛排店,通过分析Twitter大数据知道哪些人可能是常客,根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐,通过这样的服务吸引了越来越多的熟客。
4.科学研究
今天的科学研究已经超越了牛顿的时代。从历史上看,第谷积攒了大量的天文数据,开普勒通过数据的分析得到了天体三大运动定律,当时计算靠手工进行,需要人工分析,缺少计算机这样有效的计算工具,如果当年有大数据的处理方法的话,开普勒三大运动定律可能更早出来。今天大量的科学仪器产生了海量的数据,这样的数据量已经不是人拿纸拿笔就能分析的,而是需要强大的数据处理能力。今天,由于大数据的支持,科学研究由假设驱动转向基于探索的科学方法,过去设问“我应该设计什么样的实验来验证这个假设?”,现在设问“从这些数据中我能够看到什么?”和“如果把其他领域的数据融合进来,能够发现什么?”,数据密集型科学发现被称为“科学研究的第四范式”。以美国能源部为例,其提出了基于大数据科学研究的支持计划,包括生物和环境的研究计划、大气辐射测量气候的研究计划以及系统生物学的知识库对微生物和植物环境这些功能群落的识别。

补充知识:科学研究的范式
第一范式:几千年前,也就是亚里士多德的时代,科学研究是基于经验的,用于描述自然现象。
第二范式:数百年前,也就是牛顿的时代,科学研究是基于理论研究的,着眼于建立数学模型并进行推广。
第三范式:几十年前,开始了基于计算的科学研究,通过强大的能力,得以模拟复杂的自然现象。
第四范式:也叫作eScience,基于数据探索的科学研究,利用仪器获取数据或者利用模拟器生成数据,再利用软件进行处理,将知识或信息存储在计算机中,科学家利用数据管理技术和统计方法进行科学发现。

时间: 2024-07-30 06:20:15

《大数据算法》一第1章 绪论的相关文章

《大数据算法》一导读

前 言 本书的缘起 "大数据"在今天成为一个非常时尚的概念,其影响已经远远超过了计算机学科本身,甚至影响到了自然科学.社会科学.人文科学等.由于其深远的影响和广泛的应用,大数据一直得到IT从业人员的重视,他们对大数据相关理论.技术的学习有着强烈的需求. "算法设计与分析"是计算机科学的重要主题,进行大数据计算,"算法设计与分析"是必不可少的步骤,可以说,算法设计是"大数据落地"的关键之一.然而,虽然在今天的书店里,关于大数据的

《大数据算法》一1.4 本书的内容

1.4 本书的内容 基于大数据的定义.大数据算法的定义以及大数据算法的特点,本书按照如下方式组织:第一部分是亚线性算法,包括时间亚线性算法(第2章)和空间亚线性算法(第3章),其中包括如何利用近似算法和随机化算法设计思想来设计和分析亚线性算法.第二部分是外存算法,将讨论如何面向外存来设计I/O有效的算法,包括外存算法概述(第4章).外存查找结构(第5章)和外存图数据算法(第6章).第三部分是并行算法,由于并行算法的内容非常广泛,本书仅介绍数据密集型并行算法,包括MapReduce算法概述(第7章

菜鸟裹裹之大数据算法颠覆快递不是梦

文章讲的是菜鸟裹裹之大数据算法颠覆快递不是梦,快递小哥月收入能否过万在坊间屡屡引发热议,而据北京交通大学发布的报告显示,绝大部分快递员月薪仅在2000-4000元之间,超过6000元就属高收入. 如今,互联网正在改变快递员的生存现状,菜鸟网络发布的"快递版滴滴"--菜鸟裹裹通过大数据为快递员大幅增收,使用菜鸟裹裹抢单最多的快递员每月能增收近7000元,收入过万已不算新鲜. 大数据全面优化快递员配送线路 来自上海的百世快递快递员杨波从今年开始使用菜鸟裹裹抢单,最多时每天可利用平台抢到五十

《大数据算法》一1.2 大数据算法

1.2 大数据算法 这一节我们概述大数据算法. 1.2.1 大数据上求解问题的过程 首先我们看一看在大数据上问题求解的过程.我们面对的是一个计算问题,也就是说我们要用计算机来处理一个问题. 拿到一个计算问题之后,首先需要判定这个问题是否可以用计算机进行计算,如果学习过可计算性理论,就可以了解有许多问题计算机是无法计算的,比如判断一个程序是否有死循环,或者是否存在能够杀所有病毒的软件,这些问题都是计算机解决不了的.从"可计算"的角度来看,大数据上的判定问题和普通的判定问题是一样的,也就是

毫秒级大数据算法让生物识别取代密码

十一出行哪里车最多?哪里好停车?出门没带钱包和手机,怎么消费?在生物识别大数据应用方面,这些都可以依据海量视频摘要检索技术.虹膜识别技术.行人多特征检索技术.步态轨迹识别技术等当下最火的人工智能技术一一解决.可以说,以后人们外出可以不用带手机.银行卡.只要眨眨眼,刷个虹膜,世界就会向你敞开大门. 海量视频分分钟检索出"目标" 9月19日,齐鲁软件园F1座,刚驻进半年的中科唯实(济南)科技有限公司内,几十台电脑一字排开,电脑屏幕上是高新区各个路口自动存储的视频."性别.年龄段.

大数据算法在诸多领域“弄潮”

研究恒星和对付癌症看起来似乎风马牛不相及,但大数据算法将两者关联到了一起,并成为其中的"弄潮儿". 据英国广播公司报道,天文学家和肿瘤学家近日在英国剑桥大学召开跨学科会议,探讨如何对不断涌来的数据进行管理.在此次会议上,天文学家尼古拉斯·沃尔顿与英国剑桥癌症研究所的詹姆斯·布伦顿一见如故,与会人士也倾听了英国剑桥癌症研究所的卡洛斯·卡尔达斯教授对未来如何使用大数据的畅想. 恒星算法可用来攻克癌症 会议上,卡尔达斯说:"天文学家们需要对望远镜拍摄的天空图片进行深入研究,但无法通

大数据算法与分析技术国家工程实验室将建设

国家发展改革委近日正式下发通知,同意由西安交通大学作为承担单位,国家电网公司全球能源互联网研究院作为联合共建单位,筹建"大数据算法与分析技术国家工程实验室". 国网信通部落实公司党组关于推进大数据的要求,组织联研院等单位深入开展大数据基础理论和分析算法的研究,并邀请徐宗本院士等国内大数据领域权威专家作为学术委员,于2016年1月26日在联研院正式组建"全球能源互联网大数据实验室".依托该实验室,国网信通部进一步部署联研院与西安交大展开深入合作,共同申报并获批建设&q

OneMob(一体传媒):大数据算法 让营销更精准

大数据作为时下的热词,尤其被互联网各大佬追捧.据预测,到2020年,全球数据规模将达到40ZB.随着大数据时代的到来,广告主对于精准营销的需求也正在上升.如何通过技术手段,挖掘大数据下的深层次关系,让营销更准确.有效已经成为营销中重中之重. 尽管大数据如此重要,但在过去的很长一段时间,不少企业对用户.产品.竞品.营销等各个方面都只是简单总结概括,而缺乏深入研究.很多决策者也只是凭借主观判断与自己的经验对市场进行估测并制定策略,然而随着技术的革新,这样守株待兔的方式显然已不够用,还会造成资源的浪费

《大数据算法》一2.5 串相等判定算法

2.5 串相等判定算法 本节讨论一个通信亚线性算法问题,因为在很多情况下,数据传输时间和数据量大致成正比,因而将通信亚线性算法归到本章讨论. 在现实中会有这样的问题,假设A公司总部有一个庞大的数据库,而在分公司B处保存这个数据库的副本,为了数据库的一致性,要定期地比较数据.这就涉及串相等判定问题. 串相等判定问题 输入:串s1和s2. 输出:如果s1=s2输出"是",如果s1≠s2输出"否". 很显然,任何一致性检测都要求发送所有n位数据,否则,无法检测未发送位置的