解决持久化数据太大,单个节点的硬盘无法存储的问题;解决运算量太大,单个节点的内存、CPU无法处理的问题

需要学习的技术很多,要自学新知识也不是一件容易的事,选择一个自己比较感兴趣的会是一个比较好的开端,于是,打算学一学分布式系统。

  带着问题,有目的的学习,先了解整体架构,在深入感兴趣的细节,这是我的计划。

  首先得有问题,如果每日重复相同的工作,也不主动去学习,很难发现新的问题。不怕自己无知,就怕不知道自己无知,只有不断的学习,才会发现更多未知的知识领域!

带着问题出发

回到顶部

  分布式要解决什么问题呢?解决持久化数据太大,单个节点的硬盘无法存储的问题;解决运算量太大,单个节点的内存、CPU无法处理的问题。解决这些问题,有两种思路:scale up,scale out。前者就是提升单个节点的能力,更大的磁盘,更快的CPU,定制的软硬件,然而这意味着更高的价格,而且再怎么scaleup 也是有上限的。后者就是把存储、计算任务分担到普通的机器上,通过动态增加节点来应对数据量的增长,但缺点是多个节点的管理、任务的调度比较麻烦,这也是分布式系统研究和解决的问题。只有当数据量达到单机无法存储、处理的情况下才考虑分布式,不然都是自找麻烦。

  状态的维护比计算要难很多,所谓状态就是需要持久化的数据。因此主要考虑分布式存储,况且即使是分布式计算,为了节省带宽需要尽量保证data locality,也是需要分布式存储。

 

  现在有一堆数据,可能是结构化或者半结构化,需要将数据分片(segment、fragment、shard),形成一个个的数据子集,存储到一组物理节点上,物理节点之间通过网络通信。那么需要考虑两个问题:

  第一:数据如何划分; 

  第二:数据的可靠性、可用性问题

 

数据分片

  数据分片是指将数据子集尽可能均衡的划分到各个物理节点上。那么会有哪些挑战呢?

  (1)如果某个物理节点宕机,如何将该物理节点负责的数据尽快的转移到其他物理节点;

  (2)如果新增了物理节点,怎么从其他节点迁移数据到新节点;

  (3)对于可修改的数据(即不是只能追加的数据),比如数据库数据,如果某节点数据量变大,怎么将部分数据迁移到其他负载较小的节点,及达到动态均衡的效果。

  (4)元数据的管理问题:当数据分布在各个节点,那么当用户使用的时候需要知道具体的数据在哪一个节点上。因此,系统需要维护数据的元数据:即每一个数据所在的位置、状态等信息。当用户需要具体的数据时,先查询元数据,然后再去具体的节点上查询。当数据在节点之间迁移的时候,也需要更新元数据。元数据的管理节点这里称之为meta server。元数据的管理也带来了新的挑战:

    (4.1)如何抽取数据的特征(特征是分片的依据,也是用户查询数据时的key),或者支持用户自定义数据特征;

    (4.2)如何保证meta server的高性能和高可用,是单点还是复制集

  (5)分片的粒度,即数据子集的大小,也是数据迁移的基本单位。粒度过粗,不利于数据均衡;粒度过细,管理、迁移成本又会比较大。

 

数据冗余

  前面提到,分布式系统中的节点都是普通的节点,因此有一定的概率会出现物理故障,比如断电、网络不可用,这些故障导致数据的暂时不可用;另外一些故障更严重,会导致数据的丢失,比如磁盘损坏。即使单个节点的故障是小概率,当集群中的节点数目很多是,故障就成为了一个大概率事件。因此,保证数据的高可用和可靠性是分布式系统必须解决的问题。

  为了避免单点故障,可行的办法就是数据冗余(复制集),即将同一份数据放在不同的物理节点,甚至是不同的数据中心。如果数据是一次写,多次读那很好办,随便从哪个副本读取都行。但对于很多分布式存储系统,比如数据库,数据是持续变化的,有读有写。那么复制集会带来什么样的挑战呢,需要如何权衡呢,假设有三个副本:

  (1)三个副本的地位,大家都是平等的还是有主(primary、master)有次(secondary、slave),如果是平等的,那么每个节点都可以接收写操作;如果不平等,可以一个节点负责所有的写操作,所有节点都提供读操作,

  (2)在平等的情况下,怎么保证写入操作不冲突,保证各个节点的数据是一致的,怎么保证能读取到最新的数据

  (3)不平等的情况下

    (3.1)写节点怎么将变更的数据同步到其他节点,同步还是异步;

    (3.2)非写节点能否提供读数据,如果能够允许,会不会读取到过时的数据。

    (3.3)主节点是怎么产生的,当主节点宕机的时候,怎么选择出新的主节点。是有统一的复制集管理中心(记录谁主谁次,各自的状态),还是复制集自己选举出一个主节点?

  (4)不管复制集内部的节点是平等的,还是有集中式节点的,只要有多个数据副本,就需要考虑数据的一致性可用性问题。按照CAP理论,只能同时满足一致性 可用性 分区容错性之间的二者,不同的分布式系统需要权衡。

 

其他

  分布式系统有自己的术语或者概念。在当前的这个时间点,我对其中的一些有了解,或者使用过;另外一些只是听说过,不甚了解;当然,还有更多的是不知道的,是需要在后续的学习中去发现、去掌握的。

  分片 副本 一致性哈希 幂等 CAP paxos raft NWR lease 两阶段提交协议 三阶段提交协议 拜占庭问题

  目前收集到的学习资料如下:

  刘杰的《分布式系统原理介绍》

  Distributed systems for fun and profit  

  CMU课程:http://www.cs.cmu.edu/~dga/15-440/S14/syllabus.html

  MIT课程:http://nil.csail.mit.edu/6.824/2016/schedule.html

  前面两个是基础整体介绍,最后一个是MIT的课程,网上评价很高,也有很多人在学习。

总结:

回到顶部

  对于一门新技术,不要上来就开干,思考新技术解决了什么问题、已有的技术能否替代、适用场景与缺陷。对于自己(程序员),想想为什么要学、是深度还是广度知识、该技术在自己的技能树中的位置。

  对于学习,需要长期目标与短期目标相结合。长期目标很重要,但需要分解成一个个小目标,否则很容易在停顿、重拾之间打转,也很容易分心到其他杂事,也就坚持不下去了。

 

  本文地址:http://www.cnblogs.com/xybaby/p/6930977.html

 

时间: 2024-12-05 10:46:05

解决持久化数据太大,单个节点的硬盘无法存储的问题;解决运算量太大,单个节点的内存、CPU无法处理的问题的相关文章

mysql ibdata1文件太大,沾满磁盘空间,再有数据往里写的时候怎么处理。?菜鸟求解决!

问题描述 mysql ibdata1文件太大,沾满磁盘空间,再有数据往里写的时候怎么处理.?菜鸟求解决! 前两天遇到mysql ibdata1文件太大,沾满磁盘空间的问题,本人是卸载然后停服务器,再删除那几个文件的处理.如果项目上线,出现这种情况,再有数据往里写的时候怎么处理.?菜鸟求解决!

控件-急急急!!!!vb程序数据量比较大时VSflexgrid设置数据源假死机怎样解决????

问题描述 急急急!!!!vb程序数据量比较大时VSflexgrid设置数据源假死机怎样解决???? 使用vsflexgrid控件查看数据,当数据量比较大时(超过十万行),设置vsflexgrid数据源时程序假死机,等待一段时间才有响应,求大神指点!!! 解决方案 .Redraw一共有三个取值: flexRDNone --不刷新数据,要手工刷新数据才会显示 flexRDDirect --立即装入所有的数据,你应该是设置成了这个,所以速度慢 flexRDBuffered --显示部分数据,这种速度最

phalapi-进阶篇6(解决大量数据存储数据库分表分库拓展)

phalapi-进阶篇6(解决大量数据存储数据库分表分库拓展) 前言 时隔半个月随着PHP7的推出为PHP打了一瓶兴奋剂,在性能提升了一倍的情况下我们会逐渐发现,瓶颈会集中在数据库操作,那我们的内容就接着数据库读写分离,来聊聊分表分库应该怎么玩,应为PhalApi的分表分库并不是非常方便,笔者在这里提供了一个分表分库数据库集群的拓展,详细文档请见博客基于PhalApi的DB集群拓展 V0.1bate 大家可以自行在开源中国扩展Git地址中找到Cluster进行下载使用. 先在这里感谢phalap

希捷与合作伙伴合作解决无人机数据需求

存储解决方案提供商希捷科技公司与无人机厂商大疆创新在本周三于消费电子展(CES)上宣布达成战略伙伴关系,共同合作,解决无人机用户的数据需求.随着无人机航拍相机分辨率不断提升,以及无人机的飞行时间越来越长,希捷科技与大疆创新专注于安全高效地存储.管理.下载和分享由单次无人机飞行所产生的数百GB数据. 大疆创新战略伙伴关系总监Michael Perry表示:"大疆很自豪能够在无人机技术领域开拓发展,也很高兴可以与希捷共同合作,开发创新模式管理由我们最复杂最精密的产品所产生的与日俱增的数据流.将我们无

大数据行业图谱之(1):底层基础平台公司能做多大?

大数据是企业服务市场中的新兴领域,短短几年时间,大数据概念从兴起到落地,开始在各行各业发挥作用,行业政策频出,技术飞速发展,受到资本追捧. 整个大数据行业可大致分为三层,底层基础平台,中间层通用技术,上层行业应用.接下来,爱分析将按照上述分类,逐步介绍各细分领域的行业现状.未来前景.今天是大数据系列的第一篇--底层基础平台. 底层基础平台主要解决的是数据存储.计算的问题,是整个大数据生态的基石.采集到的数据,首先要能高效.快捷地存起来,才能进行数据分析和数据挖掘. 这一层非常重要,同时也是技术含

通过序列化和反序列化泛型数据实体集合来实现持久化数据对象的方法

对象|集合|数据 通过序列化和反序列化泛型数据实体集合来实现持久化数据对象的方法 我们在平时使用数据库的时候,经常会碰到一个问题,就是不希望数据实体对象插入数据库中, 却有想持久化的时候,那么就可以用序列化成 XML字符串,来保存到其他地方,由于生成的是字符串,所以可以保存到任意我们想保存的地方.比如 asp.net的ViewState,cookie,cache等. 首先,我们定义一个数据实体类.     class Entity    {        public Entity()     

使用silverlight构建一个工作流设计器(十八)-持久化数据到数据库

使用silverlight构建一个工作流设计器(十八)-持久化数据到数据库-服务器段功能实现 17.3 服务器端代码实现 服务器端的功能是将数据保存到数据库,以及从数据库中取出xml描述文件返回给客户端.本文使用LINQ to SqClasses的方法对数据库进行操作.如下图所示,增加一个linq的类 然后在左边的数据库链接管理器中,增加一个数据库链接,如下图所示:

使用silverlight构建一个工作流设计器(十七)-持久化数据到数据库

使用silverlight构建一个工作流设计器(十七)-持久化数据到数据库-设计webservices接口 在开始之间,先说下程序增加的一个小功能,就是给容器增加网格线的功能,使得容器看上去类似下面的样子 当然可以有两种方法来实现,一种就是使用背景图片,但本文一贯的原色就是少用图片,多用silverlight的画图功能来实现,这些网格都可以使用xaml中的Line对象来实现.为此我们需要动态设定一个Canvas,然后把这些动态生成的Line对象添加到Canvas中,最后再把Canvas添加到容器

用javascript解决外部数据抓取中的乱码问题_应用技巧

我们一般会在两个地方用到外部数据抓取,一个是在asp中,一个是在hta中.如果外部数据是gb2312编码的,就涉及到转码的问题,但是传统的用vbs函数进行处理的方法,运算量比较大,有些特殊字符还会出错.    如果用adodb.stream控件来进行转码,就简单多了,不需要借助vbs的二进制处理函数了,同时速度快了很多. 复制代码 代码如下: <script>  function loadData(sUrl){      var xh      xh=new ActiveXObject(&qu