大数据的存储和管理简介

任何机器都会有物理上的限制:内存容量、硬盘容量、处理器速度等,我们需要在这些硬件的限制和性能之间做出取舍,比如内存的读取速度比硬盘快得多,因此内存数据库比硬盘数据库性能好,但是内存为2GB的机器不可能将大小为100GB的数据全部放入内存中,也许内存大小为128GB的机器能够做到,但是数据增加到200GB时就无能为力了。

数据不断增长造成单机系统性能不断下降,即使不断提升硬件配置也难以跟上数据的增长速度。然而,当今主流的计算机硬件比较便宜而且可以扩展,现在购置八台 8内核、128GB内存的机器比购置一台64内核、TB级别内存的服务器划算得多,而且还可以增加或减少机器来应对将来的变化。这种分布式架构策略对于海量数据来说是比较适合的,因此,许多海量数据系统选择将数据放在多个机器中,但也带来了许多单机系统不曾有的问题。

下面我们介绍大数据存储和管理发展过程中出现的四类大数据存储和管理数据库系统。

并行数据库

并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。

水平划分的主要思想就是根据某种策略将关系表中的元组分布到集群中的不同节点上,这些节点上的表结构是一样的,这样就可以对元组并行处理。现有的分区策略有哈希分区、范围分区、循环分区等。例如,哈希分区策略是将表T中的元组分布到n个节点上,可以使用统一的哈希算法对元组中的某个或某几个属性进行哈希,如hash(T.attribute1) mod n,然后根据哈希值将元组放置到不同的节点上。

在分区存储的表中处理SQL查询需要使用基于分区的执行策略,如获取表T中某一数值范围内的元组,系统首先为整个表T生成总的执行计划P,然后将P拆分成 n个子计划{P1,…,Pn},子计划Pi在节点ni上独立执行,最后每个节点将生成的中间结果发送到某一选定的节点上,该节点对中间结果进行聚集产生最终的结果。

并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。最近一些年不断涌现一些提高系统性能的新技术,如索引、压缩、实体化视图、结果缓存、I/O共享等,这些技术都比较成熟且经得起时间的考验。与一些早期的系统如Teradata必须部署在专有硬件上不同,最近开发的系统如Aster、Vertica等可以部署在普通的商业机器上,这些数据库系统可以称得上准云系统。

并行数据库系统的主要缺点就是没有较好的弹性,而这种特性对中小型企业和初创企业是有利的。人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的,若需要对集群进行扩展和收缩,则必须为数据转移过程制订周全的计划。这种数据转移的代价是昂贵的,并且会导致系统在某段时间内不可访问,而这种较差的灵活性直接影响到并行数据库的弹性以及现用现付商业模式的实用性。

并行数据库的另一个问题就是系统的容错性较差,过去人们认为节点故障是个特例,并不经常出现,因此系统只提供事务级别的容错功能,如果在查询过程中节点发生故障,那么整个查询都要从头开始重新执行。这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询,因为在这类集群中节点的故障经常发生。基于这种分析,并行数据库只适合于资源需求相对固定的应用程序。不管怎样,并行数据库的许多设计原则为其他海量数据系统的设计和优化提供了比较好的借鉴。

NoSQL数据管理系统

NoSQL一词最早出现于1998年,它是Carlo Strozzi开发的一个轻量、开源、不提供SQL功能的关系型数据库(他认为,由于NoSQL悖离传统关系数据库模型,因此,它应该有一个全新的名字,比如“NoREL”或与之类似的名字)。

2009年,Last.fm的Johan Oskarsson发起了一次关于分布式开源数据库的讨论,来自Rackspace的Eric Evans再次提出了NoSQL的概念,这时的NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。

2009年在亚特兰大举行的“no:sql(east)”讨论会是一个里程碑,其口号是”select fun, profit from real_world where relational=false;”。因此,对NoSQL最普遍的解释是“非关系型的”,强调键值存储和文档数据库的优点,而不是单纯地反对关系型数据库。

传统关系型数据库在处理数据密集型应用方面显得力不从心,主要表现在灵活性差、扩展性差、性能差等方面。最近出现的一些存储系统摒弃了传统关系型数据库管理系统的设计思想,转而采用不同的解决方案来满足扩展性方面的需求。这些没有固定数据模式并且可以水平扩展的系统现在统称为NoSQL(有些人认为称为 NoREL更为合理),这里的NoSQL指的是“Not Only SQL”,即对关系型SQL数据系统的补充。NoSQL系统普遍采用的一些技术有:

简单数据模型。不同于分布式数据库,大多数NoSQL系统采用更加简单的数据模型,这种数据模型中,每个记录拥有唯一的键,而且系统只需支持单记录级别的原子性,不支持外键和跨记录的关系。这种一次操作获取单个记录的约束极大地增强了系统的可扩展性,而且数据操作就可以在单台机器中执行,没有分布式事务的开销。

元数据和应用数据的分离。NoSQL数据管理系统需要维护两种数据:元数据和应用数据。元数据是用于系统管理的,如数据分区到集群中节点和副本的映射数据。应用数据就是用户存储在系统中的商业数据。系统之所以将这两类数据分开是因为它们有着不同的一致性要求。若要系统正常运转,元数据必须是一致且实时的,而应用数据的一致性需求则因应用场合而异。因此,为了达到可扩展性,NoSQL系统在管理两类数据上采用不同的策略。还有一些NoSQL系统没有元数据,它们通过其他方式解决数据和节点的映射问题。

弱一致性。NoSQL系统通过复制应用数据来达到一致性。这种设计使得更新数据时副本同步的开销很大,为了减少这种同步开销,弱一致性模型如最终一致性和时间轴一致性得到广泛应用。

通过这些技术,NoSQL能够很好地应对海量数据的挑战。相对于关系型数据库,NoSQL数据存储管理系统的主要优势有:

避免不必要的复杂性。关系型数据库提供各种各样的特性和强一致性,但是许多特性只能在某些特定的应用中使用,大部分功能很少被使用。NoSQL系统则提供较少的功能来提高性能。

高吞吐量。一些NoSQL数据系统的吞吐量比传统关系数据管理系统要高很多,如Google使用MapReduce每天可处理20PB存储在Bigtable中的数据。

高水平扩展能力和低端硬件集群。NoSQL数据系统能够很好地进行水平扩展,与关系型数据库集群方法不同,这种扩展不需要很大的代价。而基于低端硬件的设计理念为采用NoSQL数据系统的用户节省了很多硬件上的开销。

避免了昂贵的对象-关系映射。许多NoSQL系统能够存储数据对象,这就避免了数据库中关系模型和程序中对象模型相互转化的代价。

NoSQL向人们提供了高效便宜的数据管理方案,许多公司不再使用Oracle甚至MySQL,他们借鉴Amzon的Dynamo和Google的 Bigtable的主要思想建立自己的海量数据存储管理系统,一些系统也开始开源,如Facebook将其开发的Cassandra捐给了Apache软件基金会。

时间: 2024-09-22 22:46:06

大数据的存储和管理简介的相关文章

Mysql大数据量存储及访问的设计讨论

一.引言 随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题.对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载.对于系统的稳定性和扩展性造成了极大的问题.通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式.水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失.通过负载均衡策略,有效的降低了单台机器的访问负载,降低了宕机的可能性:通过集群方案,解决了数据库宕机带来的单点数据库不能访问的问题:通过读写分离策略更

应对大数据的存储准备

在今天,我们频繁地地接触到"大数据"这个术语.不过业内还是对大数据究竟是什么缺少一种标准化的定义.那么,大数据对数据存储基础架构中有意味着什么呢? 企业战略集团(ESG)对大数据作出的定义是"大小规模超过常规处理能力边界的数据集,它使得你不得不采取非常规手段."简单来讲,我们可以将大数据这个词使用在任何突破了传统IT处理支撑日常业务运作能力边界的数据集合上. 这些边界可能会出现在以下几种情况下: ?过高的交易数据量导致传统的数据存储系统达到了瓶颈,无法及时地完成各项

大数据令生命周期管理面临更大挑战

文章讲的是大数据令生命周期管理面临更大挑战,集成化生命周期管理(Integrated lifecycle management,简称ILM)在迎接大数据趋势的同时也面临着新的挑战.目前可以将此类挑战归纳为三个主要的类别:无穷尽的大数据总量.大部分新数据的短期有效性以及遵循3V规范(即数量.速度与多样性)的数据一致性难题. 这就是Loraine Lawson最近发表的文章中汇总出的主干内容.她在这一话题上的观点与我的总体思路基本一致.但我对她"ILM对于大数据而言比小型数据分析环境更加重要&quo

mysql-利用MySQL数据库如何解决大数据量存储问题?

问题描述 利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,Value,DataTime).基本上每张表每天可以增加几千万条数据,我想问如何存储数据才能不影响检索速度呢?需不需要换oracle数据库呢?因为我是数据库方面的新手,希望可以说的详细一点,万分感谢!!! 解决方案 查询业务是怎么样

广东横琴新区地税局打造“大数据下纳税遵从管理”

广东横琴自贸区自挂牌成立以来,登记注册企业已超20000家,其中已引进和在洽谈的世界500强企业52家,国内500强投资企业76家,各类企业总部858家."自贸区效应"带来了区域发展的提速增效,为横琴税收可持续增长奠定了坚实的经济基础. 随着今年5月营改增的全面实施,"互联网+税务"的深入推进,横琴地税人深深地认识到:打造创新驱动发展的税务信息和服务平台,加快创新资源集聚,推动税收体制创新驱动发展,既是促进辖区企业发展的重要途径,又是实现税收稳定.持续增长的必由之路

大数据如何改变商业管理

Susan Athey:大数据如何改变商业管理 Intetix Foundation(英明泰思基金会)由从事数据科学.非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境.通过联络.动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值. 原文:https://www.gsb.stanford.edu/insights/susan-athey-how-big-data-changes-business-

我国成功研制EB级云存储系统:可满足大数据量存储落地需求

国家863计划云计算关键技术与系统(二期)项目课题验收会11月29日在天津召开,由我国高性能计算领军企业中科曙光承担的"EB级云存储系统研制"课题通过技术验收. 为促进我国云计算核心软硬件产品的研发,"十二五"国家863计划信息技术领域"云计算关键技术与系统(二期)"重大项目于2013年2月正式批准实施,其中包括"EB级云存储系统研制"等多个课题. 随着云计算.互联网.移动终端和物联网的迅猛发展,信息数据爆炸性增长,传统的云平

大数据将引领公共管理大变革

我们每天的生活被大数据包围着,一切行为和事件都以数据的形式被记录.储存和处理:早上出门,电梯的摄像头记录着出行时间:工作期间,网页记录着浏览习惯和搜索记录,电话记录着联络对象和通话时长:下班回家,购物记录界定着职业身份.家庭背景甚至性格特征,电视机顶盒记录着收视习惯和观赏品位-- 马克思曾说,人的本质是一切社会关系的总和.而今,这是一个由数据构成的世界,人就是一切数据足迹的总和. 在大数据时代,人人都可以像上帝一样,通过汇总各类数据,俯瞰万千世界的任何一面.最高决策者如此,普通公民亦如此. 什么

生态环境大数据风头正劲 信息化推动管理新聚合

大数据风头正劲.发展大数据的目的是发现新知识.创造新价值,那么生态环境大数据究竟能给环境管理创造哪些价值?带来哪些变化?作为新生事物,生态环境大数据建设之路仍需要探索.我们要积极扫除障碍,理清思路,为生态大数据的发展创造良好环境. 以改善环境质量为核心,实行最严格的环境保护制度,不断提高环境管理系统化.科学化.法制化.精细化和信息化水平,加快推进生态环境治理体系和治理能力现代化,是环境保护部谋划"十三五"工作的思路和规划.其中,信息化作为"五化"之一,其重要作用将越