大数据的前世今生-大数据特征与发展历程

大数据的定义与特征

大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。

作者认为具有以下五大特征(4V+1O)的数据才称之为大数据,即:

数据量大(Volume)。 第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

类型繁多(Variety)。 第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

价值密度低(Value)。 第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

速度快时效高(Velocity)。 第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

数据是在线的(Online)。 数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联 网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远 远不如在线的商业价值大。

关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认为数据量大就是大数据,往往忽略了大数据的在线特性。数据只有在线,即数据在 与产品用户或者客户产生连接的时候才有意义。如某用户在使用某互联网应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通过数据分析或 者数据挖掘进行加工),进行该应用的推送内容的优化,把用户最想看到的内容推送给用户,也提升了用户的使用体验。

大数据发展过程的重大事件

2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵 活的大数据分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做 MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。

2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟 (Computing Community Consortium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它使人们的思维不仅局限于数据处理的机器, 并提出:大数据真正重要的是新用途和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。

2009年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

2009年中,美国政府通过启动Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的政府数据。该网站的超过 4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府 们相继推出类似举措。

2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学数据的简易性。

2010年2月,肯尼斯ž库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔在报告中提到:“世界上有着 无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程 师已经为这个现象创造了一个新词汇:“大数据”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。

2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利。”

2011年5月,全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院(MGI)发布了一份报告——《大数据:创 新、竞争和生产力的下一个新领域》,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。报告指出,大数据已经渗透到当今每一个行业和业 务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。报告还提到,“大数据”源于数据生产和 收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。

2011年12 月,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。

2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact) 宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。

2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。2012年3月22 日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石 油”,大数据技术领域的竞争,事关国家安全和未来。并表示,国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数字主权体 现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。

2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。鉴于美国经济持续低靡、股市持续震荡的 大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。Splunk是一家领先的提供大数据监测和分析服务的软件提供商,成立 于2003年。Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。

2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。这份白皮书举例说明在一个 数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐私和退出权力提 出需求;公共部门出于改善服务,提升效益的目的,提供了诸如统计数据、设备信息,健康指标,及税务和消费信息等,并对隐私和退出权力提出需求;私人部门出 于提升客户认知和预测趋势目的,提供汇总数据、消费和使用信息,并对敏感数据所有权和商业模式更加关注。白皮书还指出,人们如今可以使用的极大丰富的数据 资源,包括旧数据和新数据,来对社会人口进行前所未有的实时分析。联合国还以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明政 府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。

2012年7月,为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台—— “聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。随后,阿里巴巴董事局主席马云在2012年网商大会上发表演讲,称从2013年1月 1日起将转型重塑平台、金融和数据三大业务。马云强调:“假如我们有一个数据预报台,就像为企业装上了一个GPS和雷达,你们出海将会更有把握。”因此, 阿里巴巴集团希望通过分享和挖掘海量数据,为国家和中小企业提供价值。此举是国内企业最早把大数据提升到企业管理层高度的一次重大里程碑。阿里巴巴也是最 早提出通过数据进行企业数据化运营的企业。

2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技 术的政策甚至会显得更加重要。在接下来将对数据保密和网络管制等议题展开积极讨论。全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府 逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。

2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,特 别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止 歧视的坚定信仰。

大数据相关技术的发展

大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展, 让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式,大数据技术的发展可以分为六大方向:

(1)在大数据采集与预处理方向。这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。

(2)在大数据存储与管理方向。这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分 布式数据库相关技术的发展正在有效的解决这些方面的问题。在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处 理的发展。

(3)大数据计算模式方向。由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如 Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混 合计算模式将成为满足多样性大数据处理和应用需求的有效手段。

(4)大数据分析与挖掘方向。在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等等。

(5)大数据可视化分析方向。通过可视化方式来帮助人们探索和解释复杂的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。很多公 司也在开展相应的研究,试图把可视化引入其不同的数据分析和展示的产品中,各种可能相关的商品也将会不断出现。可视化工具Tabealu 的成功上市反映了大数据可视化的需求。

(6)大数据安全方向。当我们在用大数据分析和数据挖掘获取商业价值的时候,黑客很可能在向我们攻击,收集有用的信息。因此,大数据的安全一直是企业和学 术界非常关注的研究方向。通过文件访问控制来限制呈现对数据的操作、基础设备加密、匿名化保护技术和加密保护等技术正在最大程度的保护数据安全。

互联网的发展是大数据发展的最大驱动力

截至 2014 年 6月,我国网民规模达 6.32亿,较 2013年底增加1442 万人,互联网普及 46.9%,即接近一半的中国人在使用互联网。互联网的增长速度超越了很多人的预期:4年前即2010年6月,互联网普及率为31.8%,而仅经历了四 年,互联网的普及率增加了超过15%。

更为重要的是,CNNIC的数据还显示,截至2014年6月,我国网民上网设备中,手机使用率达83.4%,首次超越传统PC整体使用率 (80.9%),手机作为第一大上网终端设备的地位更加巩固,手机使得上网变得更加随时随地,手机上网更加渗透到人们的日常工作和生活中。

因此,互联网普及使得网民的行为更加多元化,通过互联网产生的数据发展更加迅猛,更具代表性。互联网世界中的商品信息、社交媒体中的图片、文本信息以及视频网站的视频信息,互联网世界中的人与人交互信息、位置信息等,都已经成为大数据的最重要也是增长最快的来源。

文章来源微信公众号:傅志华。作者:傅志华曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。曾就职于艾瑞市场咨询、易观国际、中国互联网协会,并任DCCI互联网数据中心副总裁。

时间: 2024-09-16 19:35:14

大数据的前世今生-大数据特征与发展历程的相关文章

大数据技术的发展历程 及其演化趋势

最早提出词汇"Big Data"的是2011年麦肯锡全球研究院发布的<大数据:下一个创新.竞争和生产力的前沿>研究报告.之后,经 Gartner技术炒作曲线和2012年维克托·舍恩伯格<大数据时代:生活.工作与思维的大变革>的宣传推广,大数据概念开始风靡全球. 基于Web of Science数据库中1994年后涉及大数据概念的4495篇文献,采用Citespace知识图谱工具,通过热点关键词和高被引文献分析,能够勾勒出大数据技术从萌芽到成熟的发展历程. 上世纪

大数据预测:4个特征,11个典型行业

世界杯期间各家科技巨头利用大数据预测比赛结果,再现"章鱼保罗"雄风.世界杯结束了但大数据预测还会继续.从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家,从地震云的传说再到科学家猛攻的地震预测,人类一直希望能够更早突破局限看穿未来.随着信息革命的深入,大数据时代的预测更加容易,人类的生活正在被大数据预测深刻改变. 预测是大数据核心价值 人们在谈论大数据的采集.存储和挖掘时,最常见的应用案例便是"预测股市""预测流感""预测消费者行

大数据的前世今生

大数据的定义与特征 大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集.处理.存储和计算的数据集合. 作者认为具有以下五大特征(4V+1O)的数据才称之为大数据,即: 数据量大(Volume).第一个特征是数据量大,包括采集.存储和计算的量都非常大.大数据的起始计量单位至少是P(1000个T).E(100万个T)或Z(10亿个T). 类型繁多(Variety).第二个特征是种类和来源多样化.包括结构化.半结构化和非结构化数据,具体表现为网络

同有科技分享大数据时代新型大数据处理中心的特征

摘要: 日前,北京同有科技举办了主题为"数据改变未来,应用定义存储"的2013年渠道峰会.来自全国近百家重点核心合作伙伴参与了会议,与同有科技一起探讨了如何帮助中高端存储用户构 日前,北京同有科技举办了主题为"数据改变未来,应用定义存储"的2013年渠道峰会.来自全国近百家重点核心合作伙伴参与了会议,与同有科技一起探讨了如何帮助中高端存储用户构建数据中心,帮助他们迅速适应大数据时代的应用需求. 大数据时代,具备大数据特征的应用越来越多,对数据中心的需求有了革命性的变

百度大数据的前世今生

文/科技有一说一 刚刚结束的巴西世界杯上,首次出现了大数据预测世界杯的高科技,百度大数据不仅成功预测德国夺冠,而且在决赛之前的比赛结果预测中也是以超高的准确率被网友称作"预测帝",让普罗大众在世界顶级赛事中见证了大数据的威力. "数据已经成为一种新的经济资产类别,就像货币或黄金一样."在两年前于瑞士达沃斯召开的世界经济论坛上,大数据的大影响已经是当时讨论的主题之一,并提出了这样的观点. 根据科技研究公司IDC作出的估测,数据一直都在以每年50%的速度增长,换而言之,

新美大实战经验:大数据在O2O精准化营销中的应用

本次的分享Topic是:精准营销中的数据应用. 内容概要 O2O的营销业务和系统演变: 数据系统和服务在营销系统中的应用: 数据挖掘和用户画像的建设. O2O的营销业务和系统演变 在介绍技术框架前,为了方便大家理解,先简单阐述一下O2O营销的基本组成:O2O营销是由营销发生的渠道(站内,站外)与营销的主题业务(流量,交易)两个维度组成的,其中产生了多种营销的形态,如精准化用户营销活动.DSP的精准投放.渠道价值排名和反作弊等,数据分析和挖掘在这些环节都能发挥很大的价值.本次我们主要介绍站内精准化

大凯哥说大数据(系列一):没有云计算就没有大数据

本文作者:肖凯,驻云科技COO,联合创始人,前IBM资深架构师,前EMC资深架构师.负责驻云云计算架构和运维团队,面向企业提供云计算咨询与运维服务,拥有超过10年的系统开发.架构设计.企业级技术咨询的经验. 以下正文 最近很多人跟我聊大数据,有客户,有朋友,还有应聘者.聊得越多却越怕谈大数据,为什么呢?比如有人跟我说他在做基因数据的大数据分析,我听到眼睛一亮,因为十几年前读书的时候做过一些基因序列分析方面的事情,知道这个很有价值但由于当时分析手段很落后也只得作罢,于是我赶紧问,你怎么分析?他说我

小白学数据 | 除了计算大姨妈周期,时间序列分析还有什么用

"--- 据说最贴心的男票是会记录下女票每一次大姨妈来的时间,然后绘制成一张月份折线图以监测女票的身体健康(以避开无法啪啪啪的时间).你知不知道,这张图其实就是一个时间序列图,你看图预测未来几个月女票的大姨妈时间就叫做时间序列分析-- 咳咳,言归正传,时间序列分析是一种广泛应用的数据处理统计方法,除了计算大姨妈周期,在实际很生活还有很多应用,小白今天就来带大家探探究竟. ---"小白问:时间序列分析就是分析时间的么? 答:你是想问分析的是什么数据吧?简单来说,时间序列数据是在特定时间内

数据科学家和大数据技术人员工具包

数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独特的基本思