一脸懵逼学习Zookeeper(动物园管理员)---》高度可靠的分布式协调服务

 1:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务

  A、zookeeper是为别的分布式程序服务的

  B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,Zookeeper就能正常服务)

  C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……

  D、虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两个功能:

    管理(存储,读取)用户程序提交的数据;

    并为用户程序提供数据节点监听服务;

3:Zookeeper集群的角色:  Leader 和  follower  (Observer)

  只要集群中有半数以上节点存活,集群就能提供服务

4:Zookeeper集群机制
  半数机制:集群中半数以上机器存活,集群可用。
  zookeeper适合装在奇数台机器上!!!

1:Zookeeper (动物园管理员,提供少量数据的存储和管理,提供对数据节点的监听器)是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等;
官方网址:http://zookeeper.apache.org/

 2:为什么使用Zookeeper?

  (1)大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等);
  (2)目前,大部分应用需要开发私有的协调程序,缺乏一个通用的机制;
  (3)协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器;
  (4)ZooKeeper:提供通用的分布式锁服务,用以协调分布式应用;
3:Zookeeper能帮我们做什么?

  (1)Hadoop2.0,使用Zookeeper的事件处理确保整个集群只有一个活跃的NameNode,存储配置信息等;
  (2)HBase,使用Zookeeper的事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕机,存储访问控制列表等;
4:Zookeeper的特性:

  (1)Zookeeper是简单的;
  (2)Zookeeper是富有表现力的;
  (3)Zookeeper具有高可用性;
  (4)Zookeeper采用松耦合交互方式;
  (5)Zookeeper是一个资源库;

 

a、Zookeeper:一个leader,多个follower组成的集群

 

b、全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的

 

c、分布式读写,更新请求转发,由leader实施

 

d、更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行

 

e、数据更新原子性,一次数据更新要么成功,要么失败

 

f、实时性,在一定时间范围内,client能读到最新数据

 

5:Zookeeper的安装和配置(单机模式):

  (1)下载ZooKeeper:http://labs.renren.com/apache-mirror/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz;
  (2)解压:tar xzf zookeeper-3.4.3.tar.gz;
  (3)在conf目录下创建一个配置文件zoo.cfg:

tickTime=2000
dataDir=/Users/zdandljb/zookeeper/data
dataLogDir=/Users/zdandljb/zookeeper/dataLog
clientPort=2181

  (4)启动ZooKeeper的Server:sh bin/zkServer.sh start, 如果想要关闭,输入:zkServer.sh stop
6:Zookeeper的安装和配置(集群模式):

  (1)创建myid文件,server1机器的内容为:1,server2机器的内容为:2,server3机器的内容为:3
  (2)在conf目录下创建一个配置文件zoo.cfg:

tickTime=2000
dataDir=/Users/zdandljb/zookeeper/data
dataLogDir=/Users/zdandljb/zookeeper/dataLog         clientPort=2181
initLimit=5                          syncLimit=2                                  server.1=server1:2888:3888                                server.2=server2:2888:3888                                server.3=server3:2888:3888

 7:Zookeeper的安装和配置(伪集群模式):

  (1)建了3个文件夹,server1 server2 server3,然后每个文件夹里面解压一个zookeeper的下载包;
  (2)进入data目录,创建一个myid的文件,里面写入一个数字,server1,就写一个1,server2对应myid文件就写入2,server3对应myid文件就写个3;
  (3)在conf目录下创建一个配置文件zoo.cfg:

tickTime=2000
dataDir=/Users/zdandljb/zookeeper/data
dataLogDir=xxx/zookeeper/server1/          clientPort=2181                                  initLimit=5                           syncLimit=2                                  server.1=server1:2888:3888                                 server.2=server2:2888:3888                                   server.3=server3:2888:3888

 8:Zookeeper的数据模型:

  (1)层次化的目录结构,命名符合常规文件系统规范
  (2)每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识
  (3)节点Znode可以包含数据和子节点,但是EPHEMERAL类型的节点不能有子节点
  (4)Znode中的数据可以有多个版本,比如某一个路径下存有多个数据版本,那么查询这个路径下的数据就需要带上版本
  (5)客户端应用可以在节点上设置监视器
  (6)节点不支持部分读写,而是一次性完整读写

 9:Zookeeper的节点:
  (1)Znode有两种类型,短暂的(ephemeral)和持久的(persistent)
  (2)Znode的类型在创建时确定并且之后不能再修改
  (3)短暂znode的客户端会话结束时,zookeeper会将该短暂znode删除,短暂znode不可以有子节点
  (4)持久znode不依赖于客户端会话,只有当客户端明确要删除该持久znode时才会被删除
  (5)Znode有四种形式的目录节点,PERSISTENT、PERSISTENT_SEQUENTIAL、EPHEMERAL、EPHEMERAL_SEQUENTIAL

10:Zookeeper的角色:
  (1)领导者(leader),负责进行投票的发起和决议,更新系统状态
  (2)学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票
  (3)Observer可以接受客户端连接,将写请求转发给leader,但observer不参加投票过程,只同步leader的状态,observer的目的是为了扩展系统,提高读取速度
  (4)客户端(client),请求发起方
11:Zookeeper的顺序号:
  (1)创建znode时设置顺序标识,znode名称后会附加一个值
  (2)顺序号是一个单调递增的计数器,由父节点维护
  (3)在分布式系统中,顺序号可以被用于为所有的事件进行全局排序,这样客户端可以通过顺序号推断事件的顺序
12:Zookeeper的读写机制:
  (1)Zookeeper是一个由多个server组成的集群
  (2)一个leader,多个follower
  (3)每个server保存一份数据副本
  (4)全局数据一致
  (5)分布式读写
  (6)更新请求转发,由leader实施
13:Zookeeper的保证:
  (1)更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行
  (2)数据更新原子性,一次数据更新要么成功,要么失败
  (3)全局唯一数据视图,client无论连接到哪个server,数据视图都是一致的
  (4)实时性,在一定事件范围内,client能读到最新数据
14:Zookeeper的API接口:
  (1)String create(String path, byte[] data, List<ACL> acl, CreateMode createMode)
  (2)Stat exists(String path, boolean watch)
  (3)void delete(String path, int version)
  (4)List<String> getChildren(String path, boolean watch)
  (5)List<String> getChildren(String path, boolean watch)
  (6)Stat setData(String path, byte[] data, int version)
  (7)byte[] getData(String path, boolean watch, Stat stat)
  (8)void addAuthInfo(String scheme, byte[] auth)
  (9)Stat setACL(String path, List<ACL> acl, int version)
  (10)List<ACL> getACL(String path, Stat stat)

15:Zookeeper应用场景1-统一命名服务:
  (1)分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。
  (2)Name Service 是 Zookeeper 内置的功能,只要调用 Zookeeper 的 API 就能实现。

16:Zookeeper应用场景2-配置管理:
  (1)配置的管理在分布式应用环境中很常见,例如同一个应用系统需要多台 PC Server 运行,但是它们运行的应用系统的某些配置项是相同的,如果要修改这些相同的配置项,那么就必须同时修改每台运行这个应用系统的 PC Server,这样非常麻烦而且容易出错。
  (2)将配置信息保存在 Zookeeper 的某个目录节点中,然后将所有需要修改的应用机器监控配置信息的状态,一旦配置信息发生变化,每台应用机器就会收到 Zookeeper 的通知,然后从 Zookeeper 获取新的配置信息应用到系统中。

17:应用场景3-集群管理:
  (1)Zookeeper 能够很容易的实现集群管理的功能,如有多台 Server 组成一个服务集群,那么必须要一个“总管”知道当前集群中每台机器的服务状态,一旦有机器不能提供服务,集群中其它集群必须知道,从而做出调整重新分配服务策略。同样当增加集群的服务能力时,就会增加一台或多台 Server,同样也必须让“总管”知道。
  (2)Zookeeper 不仅能够维护当前的集群中机器的服务状态,而且能够选出一个“总管”,让这个总管来管理集群,这就是 Zookeeper 的另一个功能 Leader Election。
  (3)规定编号最小的为master,所以当我们对SERVERS节点做监控的时候,得到服务器列表,只要所有集群机器逻辑认为最小编号节点为master,那么master就被选出,而这个master宕机的时候,相应的znode会消失,然后新的服务器列表就被推送到客户端,然后每个节点逻辑认为最小编号节点为master,这样就做到动态master选举。

18:Zookeeper应用场景4-共享锁:
  (1)共享锁在同一个进程中很容易实现,但是在跨进程或者在不同 Server 之间就不好实现了。Zookeeper 却很容易实现这个功能,实现方式也是需要获得锁的 Server 创建一个 EPHEMERAL_SEQUENTIAL 目录节点,然后调用 getChildren方法获取当前的目录节点列表中最小的目录节点是不是就是自己创建的目录节点,如果正是自己创建的,那么它就获得了这个锁,如果不是那么它就调用 exists(String path, boolean watch) 方法并监控 Zookeeper 上目录节点列表的变化,一直到自己创建的节点是列表中最小编号的目录节点,从而获得锁,释放锁很简单,只要删除前面它自己所创建的目录节点就行了。

19:Zookeeper应用场景5-队列管理:

  (1)Zookeeper 可以处理两种类型的队列:当一个队列的成员都聚齐时,这个队列才可用,否则一直等待所有成员到达,这种是同步队列;队列按照 FIFO 方式进行入队和出队操作,例如实现生产者和消费者模型
  (2)创建一个父目录 /synchronizing,每个成员都监控目录 /synchronizing/start 是否存在,然后每个成员都加入这个队列(创建 /synchronizing/member_i 的临时目录节点),然后每个成员获取 / synchronizing 目录的所有目录节点,判断 i 的值是否已经是成员的个数,如果小于成员个数等待 /synchronizing/start 的出现,如果已经相等就创建 /synchronizing/start。

20:Zookeeper总结:

  (1)Zookeeper 作为 Hadoop 项目中的一个子项目,是 Hadoop 集群管理的一个必不可少的模块,它主要用来控制集群中的数据,如它管理 Hadoop 集群中的 NameNode,还有 Hbase 中 Master Election、Server 之间状态同步等。
  (2)Zoopkeeper 提供了一套很好的分布式集群管理的机制,就是它这种基于层次型的目录树的数据结构,并对树中的节点进行有效管理,从而可以设计出多种多样的分布式的数据管理模型

21:Zookeeper的数据结构:

 1、层次化的目录结构,命名符合常规文件系统规范(见下图);

2、每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识;

3、节点Znode可以包含数据和子节点(但是EPHEMERAL类型的节点不能有子节点,下一页详细讲解);

4、客户端应用可以在节点上设置监视器;

   Zookeeper的数据结构示意图:

 

 22:Zookeeper的节点类型:

1、Znode有两种类型:

短暂(ephemeral)(断开连接自己删除)

持久(persistent)(断开连接不删除)

2、Znode有四种形式的目录节点(默认是persistent )

PERSISTENT

PERSISTENT_SEQUENTIAL(持久序列/test0000000019 )

EPHEMERAL

EPHEMERAL_SEQUENTIAL

3、创建znode时设置顺序标识,znode名称后会附加一个值,顺序号是一个单调递增的计数器,由父节点维护

4、在分布式系统中,顺序号可以被用于为所有的事件进行全局排序,这样客户端可以通过顺序号推断事件的顺序

待续......

时间: 2024-09-16 12:38:56

一脸懵逼学习Zookeeper(动物园管理员)---》高度可靠的分布式协调服务的相关文章

一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构.  注意:HADOOP的核心组件有: 1)HDFS(分布式文件系统) 2)YARN(运算资源调度系统) 3)MAPREDUCE(分布式运算编程框架)       Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode

【转】分布式协调服务ZooKeeper工作原理

申明:本文转自分布式协调服务ZooKeeper工作原理,来自yogoup公众号.解决了我关于zookeeper这个系统的认识,zookeeper主要解决分布式系统的一致性问题,实际应用场景包括:统一命名服务.分布式配置管理.集群管理.分布式锁.分布式队列等.在微服务架构中,也可以使用zookeeper作为服务发现的中间件. 大数据处理框架Hadoop.Redis分布式服务Codis.淘宝的分布式消息中间件MetaMQ --他们都使用ZooKeeper做为基础部件,可以看出ZooKeeper的强大

一脸懵逼学习Hadoop中的序列化机制——流量求和统计MapReduce的程序开发案例——流量求和统计排序

一:序列化概念 序列化(Serialization)是指把结构化对象转化为字节流.反序列化(Deserialization)是序列化的逆过程.即把字节流转回结构化对象.Java序列化(java.io.Serializable) 二:Hadoop序列化的特点 (1):序列化格式特点: 紧凑:高效使用存储空间. 快速:读写数据的额外开销小. 可扩展:可透明地读取老格式的数据. 互操作:支持多语言的交互. (2):Hadoop的序列化格式:Writable接口 三:Hadoop序列化的作用: (1):

分布式协调服务中间件ZooKeeper 入门(1)-ZK的介绍与特性

一.Zookeeper简介 Zookeeper是一个服务,是一个分布式协调技术,他提供高性能,分布式的协调服务.主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果.它也提供了其他简单的功能,这样分布式系统可以基于它来实现更好的服务,比如同步,配置管理,集群等等.他使用文件系统目录树作为数据模型.服务端可以跑在java程序上,他提供java和C的客户端api. 什么是分布式系统? 1.由多台计算机组成一个整体2.计算机之间可以互相通

一脸懵逼学习Hive的安装(将sql语句翻译成MapReduce程序的一个工具)

Hive只在一个节点上安装即可: 1.上传tar包:这个上传就不贴图了,贴一下上传后的,看一下虚拟机吧: 2.解压操作: [root@slaver3 hadoop]# tar -zxvf hive-0.12.0.tar.gz 解压后贴一下图:  3:解压缩以后启动一下hive:  4:开始操作sql: 好吧,开始没有启动集群,输入mysql创建数据库命令,直接不屌我,我也是苦苦等待啊: 5:启动我的集群,如下所示,这里最后帖一遍部署以后集群关了,重新开启集群的步骤,不能按照部署集群的时候进行格式

一脸懵逼学习Hive的元数据库Mysql方式安装配置

1:要想学习Hive必须将Hadoop启动起来,因为Hive本身没有自己的数据管理功能,全是依赖外部系统,包括分析也是依赖MapReduce: 2:七个节点跑HA集群模式的: 第一步:必须先将Zookeeper启动起来(HA里面好多组件都依赖Zookeeper): 切换目录,启动Zookeeper(master节点,slaver1节点,slaver2节点):./zkServer.sh start 第二步:启动HDFS(千万不要格式化了,不然肯定报错给你): 直接在slaver3节点启动:star

一脸懵逼学习Hadoop分布式集群HA模式部署(七台机器跑集群)

1)集群规划:主机名        IP      安装的软件                     运行的进程master    192.168.199.130   jdk.hadoop                     NameNode.DFSZKFailoverController(zkfc)slaver1    192.168.199.131    jdk.hadoop                       NameNode.DFSZKFailoverController(

一脸懵逼学习Hive的使用以及常用语法(Hive语法即Hql语法)

Hive官网(HQL)语法手册(英文版):https://cwiki.apache.org/confluence/display/Hive/LanguageManual  Hive的数据存储 1.Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2.只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据. 3.Hive 中包含以下数据模型:DB.Table,Ex

一脸懵逼学习oracle

oracle的默认用户:system,sys,scott: 1:查看登录的用户名:show user: 2:查看数据字典:dba_users; 3:创建新用户 (1)要连接到Oracle数据库,就需要创建一个用户账户: (2)每个用户都有一个默认表空间和一个临时表空间:     创建用户(Create the user):create user 用户名identified by "密码"default tablespace SYSTEM --系统表空间temporary tablesp