《大数据管理概论》一1.4 大数据的处理模式

本节书摘来自华章出版社《大数据管理概论》一书中的第1章,第1.4节,作者 孟小峰,更多章节内容可以访问“华章计算机”公众号查看

1.4 大数据的处理模式

无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce。这些系统将分布式编程简化为自动提供位置感知(locality-aware)调度、容错以及负载均衡,使得大量用户能够在商用集群上分析庞大的数据集。
大多数现有的集群计算系统都是基于非循环数据流模型(acyclic data f?low model),从稳定的物理存储(如分布式文件系统)中加载记录,一组确定性操作构成一个有向无环图(Directed Acyclic Graph,DAG),记录被传入这个DAG,然后写回稳定存储。通过这个DAG数据流图,运行时自动完成调度工作及故障恢复。
尽管非循环数据流是一种很强大的抽象方法,但有些应用仍然无法使用这种方式描述,包括:①机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数);②交互式数据挖掘工具(用户反复查询一个数据子集)。此外基于数据流的架构也不明确支持这种处理,所以需要将数据输出到磁盘,然后在每次查询时重新加载,从而带来较大的开销。
当前大数据分析处理系统的发展趋势主要有两个方向:一种是以Hadoop和MapReduce为代表的批处理(batch processing)系统,另一种是为各种特定应用开发的流处理(stream processing)系统,批处理是先存储后处理(store-then-process),而流处理则是直接处理(straight-through processing)。

1.4.1 批处理

Google公司于2004年提出的MapReduce编程模型是最具代表性的批处理模式。一个完整的MapReduce过程如图1-2所示。

MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务去处理。Map任务从输入中解析出键/值对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后,会根据key值进行排序,将具有相同key值的数据组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。
从MapReduce的处理过程我们可以看出,MapReduce的核心设计思想在于:①将问题分而治之;②把计算推至数据而不是把数据推至计算,有效避免数据传输过程中产生的大量通信开销。MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛应用。
无论是批处理还是流处理,都是大数据处理的可行思路。大数据的应用类型很多,在实际的大数据处理中,常常并不是简单地只使用其中的某一种,而是将二者结合起来。互联网是大数据最重要的来源之一,很多互联网公司根据处理时间的要求将自己的业务划分为在线(online)、近线(nearline)和离线(off?line),比如著名的职业社交网站LinkedIn。这种划分方式是按处理所耗时间来划分的。其中在线的处理时间一般为秒级,甚至是毫秒级,因此通常采用上面所说的流处理;离线的处理时间可以以天为基本单位,基本采用批处理方式,这种方式可以最大限度地利用系统
I/O;近线的处理时间一般为分钟级或者是小时级,对处理模型并没有特别的要求,可以根据需求灵活选择,但在实际中多采用批处理模式。

1.4.2 流处理

流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络和金融中的高频交易等。

流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。图1-3是流处理中基本的数据流模型。
数据的实时处理是一个极具挑战性的工作,数据流本身具有持续达到、速度快且规模巨大等特点。为了确保分布式数据流的实时处理,需要对数据流的传输和模型进行说明。①数据流传输。为保证实时、完整且稳定地将数据流传输到处理系统,一般可通过消息队列和网络Socket传输等方法完成,以保证将数据发送至每个物理节点,为数据处理提供保障。利用消息队列的方式进行数据采集和传输是较为常用的一种方法,常见的消息队列产品有Facebook的Scribe、LinkedIn的Kafka和Cloudera的Flume等。
②数据流模型。在查询处理过程中,由于数据流的来源不同,需要针对不同的数据源制订不同的数据样式。一般来讲,通用的数据流管理系统支持关系型数据模型,数据定义语言是基于关系型的原子类型,便于以属性和元组的形式划分和发送数据;针对特殊领域的数据流管理系统,可根据领域数据的特点设计基于对象类型的复合数据类型。

时间: 2024-09-27 22:48:02

《大数据管理概论》一1.4 大数据的处理模式的相关文章

《大数据管理概论》一1.3 大数据应用

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.3 大数据应用 人类历史上从未有哪个时代同今天一样产生如此海量的数据.数据的产生已经完全不受时间.地点的限制.从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生. 1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为

《大数据管理概论》一2.3 大数据融合的方法论

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.3 大数据融合的方法论 由2.2节的分析可知,大数据融合是一个多学科跨领域的研究问题,它的任务是将碎片化的数据相联系,将分散的数据集中,形成表层知识,即知识资源:进而使隐性知识显性化,使表层知识上升为普适机理.从而在数据资源.知识资源与用户之间建立有效的联系,缓解数据的无限性.知识的零散性与用户需求无法满足之间的矛盾,最大限度地提升大数据的价值

《大数据管理概论》一3.2 大数据存储与管理方法

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.2 大数据存储与管理方法 闪存.PCM等新型存储介质的引入使得大数据存储架构有了多种选择.但由于新型存储介质在价格.寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质和传统存储介质,由此产生了多种基于新型存储的大数据存储架构,如基于PCM的主存架构.基于闪存的主存扩展架构.基于多存储介质的分层存储架构

《大数据管理概论》一2.4 数据融合技术

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.4 数据融合技术 数据融合需要用动态的方式统一不同的数据源,将离散的数据转化为统一的知识资源.另外,大数据的关联性使得融合步骤之间相互影响,传统的流水线式融合不再满足现有融合需求.面对新的融合需求,反馈迭代机制显得极为重要.为此,我们给出数据融合的新的实现步骤:①对齐本体.模式,加速融合效率:②识别相同实体.链接关联实体:③甄别真伪.合并冲突数

《大数据管理概论》一2.2 大数据融合的概念

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.2 大数据融合的概念 众所周知,大数据价值链是一个阶梯式循环过程:"离散数据→集成化数据→知识理解→普适机理凝练→解释客观现象.回归自然",每一个链条是对大数据的一次价值提升.为了实现这一价值,我们提出了大数据融合的概念,它是获取高品质知识.最大程度发挥大数据价值的一种手段,它的重要性毋庸置疑.但是,大数据的特征已经发生变化

《大数据管理概论》一2.6 大数据融合的驱动枢纽

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.6节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.6 大数据融合的驱动枢纽 数据融合与知识融合是一个相互启发.相互协调.逐步融合的过程,两者之间需要一个纽带进行衔接,我们把这个衔接纽带叫做智能晶格.此外,数据融合与知识融合还受一些共同因素的影响,如动态演化性.海量性和高速性,这些因素直接影响融合技术. 2.6.1 智能晶格 智能晶格的本质功能是用于桥接数据融合和知识融合,并对外提供使用接口,它

《大数据管理概论》一第3章‖大数据存储3.1 引言

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 第3章| 大数据存储 3.1 引言 大数据存储与管理研究首先面临的是存储技术上的挑战.虽然目前有许多存储技术有望用于大数据存储,但它们都存在局限性[36].例如:目前以NoSQL数据库为代表的大规模分布式数据库系统设计了基于磁盘存储的读写方式.索引结构.查询执行.查询优化和恢复策略,但是磁盘固有的读写性能差等弊端限制了大数据存取尤其是大数据分析性能

《大数据管理概论》一1.2 大数据的演变过程

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.2 大数据的演变过程 从数据库(Database,DB)到大数据(Big Data,BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别.大数据的出现必将颠覆传统的数据管理方式,在数据来源.数据处理方式和数据思维等方面都会带来革命性变化.如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为"池塘捕鱼&

《大数据管理概论》一第1章概  述1.1 大数据的基本概念

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 |第1章 概 述 1.1 大数据的基本概念 已故的图灵奖得主Jim Gray在其<事务处理>一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收.土地.谷物.牲畜.奴隶和黄金等情况.随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文.