Kafka入门初探+伪集群部署

Kafka是目前非常流行的消息队列中间件,常用于做普通的消息队列、网站的活性数据分析(PV、流量、点击量等)、日志的搜集(对接大数据存储引擎做离线分析)。

全部内容来自网络,可信度有待考证!如有问题,还请及时指正。

概念介绍

在Kafka中消息队列分为三种角色:

  • producer,即生产者,负责产生日志数据。
  • broker,存储节点,负责按照topic中的partition分区,均匀分布式的存储分区。
  • consumer,即消费者,负责读取使用broker中的分区。

producer

Kafka系统中的生产者,用于产生数据并发送给broker进行存储。由于需要与broker中的分区保持socket连接,因此需要在zk中维护生产者与分区broker的对应关系。同一个topic下的数据,会以某种负载均衡的方式发送到不同的分区中。

broker

Broker可以当做Kafka中的存储节点,数据按照topic组织,按照某种负载均衡方式分配到不同的分区中。一个Topic由多个分区组成,每个分区可以设置备份数量。分区由一个leader+多个followers组成,生产者直接与leader进行沟通,leader接收消息后,其他的followers会同步这个消息。所有的follwers同步消息后,该消息才会成为可消费的状态。

Broker中Topic与分区,分区与生产者,分区之间的选举备份等等信息都需要ZK进行协调。

consumer

Consumer是Kafka中的消费者,通常以组的形式存在,一个Group会包含多个Consumer。每个组对应一个Topic,该Topic内的分区只能对应一个消费者,也就是如果消费者很多的情况下,会出现有的消费者消费不到数据;如果消费者很少的情况下,会有消费者同时消费多个分区的数据。

Kafka仅仅会保证一个分区的消息的消费是有序的,多个分区并不保证有序性。

为了保证数据消费的可靠性,Kakka提供了几种消费的机制:

  • 1 at most once,即消费数据后,保存offset,就再也取不到这个数据了。
  • 2 at least once,即消费数据后,保存offset,如果保存出错,下次可能还会取到该数据
  • 3 exactly once,待查阅

在Kafka中offset是由consumer维护的(实际可以由zk来完成)。这种机制有两个好处,

  • 一个是可以依据consumer的能力来消费数据,避免产生消费数据的压力;
  • 另一个就是可以自定义fetch消费的数据数目,可以一次读取1条,也可以1次读取100条。

topic

Kafka中的数据的主题,所有的操作(如消息的存储和读取\消费)都是依据topic完成。

partition

每个Topic由多个分区组成,每个分区内部的数据保证了有序性,即是按照时间序列,append到分区的尾部。分区是有固定大小的,容量不够时,会创建新的分区。Kafka在一定时间内会定期清理过期的文件。

这种连续性的文件存储,一方面有效的利用磁盘的线性存取;另一方面减轻了内存的压力。

zookeeper

在Kafka中很多节点的调度以及资源的分配,都要依赖于zookeeper来完成。
如:

  • 1 Broker的注册,保存Broker的IP以及端口;
  • 2 Topic注册,管理broker中Topic的分区以及分布情况
  • 3 Broker的负载均衡,讲Topic动态的分配到broker中,通过topic的分布以及broker的负载判断
  • 4 消费者,每个分区的消息仅发送给一个消费者(不知道跟zookeeper有啥关系)
  • 5 消费者与分区的对应关系,存储在zk中
  • 6 消费者负载均衡,一旦消费者增加或者减少,都会触发消费者的负载均衡
  • 7 消费者的offset,High level中由zk维护offset的信息;Low Level中由自己维护offset

伪集群环境的搭建

部署伪集群环境,即单节点环境非常简单。下载部署文件,解压后,直接运行即可。

运行命令如下:

# 启动zookeeper
bin/zookeeper-server-start.sh config/zookeeper.properties &  

# 启动kafka
bin/kafka-server-start.sh config/server.properties &

如果想要测试,可以启动测试程序:

# 启动生产者测试程序
./kafka-console-producer.sh --broker-list localhost:9092 --topic test

# 启动消费者测试程序
./kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

在生产者界面输入的内容,就可以直接在消费者界面中看到了。

本文转自博客园xingoo的博客,原文链接:Kafka入门初探+伪集群部署,如需转载请自行联系原博主。

时间: 2024-10-27 10:47:35

Kafka入门初探+伪集群部署的相关文章

消息中间件kafka+zookeeper集群部署、测试与应用

业务系统中,通常会遇到这些场景:A系统向B系统主动推送一个处理请求:A系统向B系统发送一个业务处理请求,因为某些原因(断电.宕机..),B业务系统挂机了,A系统发起的请求处理失败:前端应用并发量过大,部分请求丢失或后端业务系统卡死....这个时候,消息中间件就派上用场了--提升系统稳定性.可用性.可扩展性. 一.消息中间件消息队列技术是分布式应用间交换信息的一种技术.消息队列可驻留在内存或磁盘上,队列存储消息直到它们被应用程序读走.通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置.

CentOS redis集群部署 开启防火墙无法访问集群

问题描述 CentOS redis集群部署 开启防火墙无法访问集群 CentOS redis集群部署 开启防火墙无法访问集群 我现在是单机部署的一个伪集群,通过命令 redis-trib.rb check ip:端口 可以正常检测集群状态, 一旦我将iptables 防火墙 启动,就无法检测了~~这是为啥啊~ 还有一个问题 我用tomcat集群+redis 做session共享,也是一样,开启防火墙,就无法连接redis服务器 只要关闭防火墙,就一切正常~~ iptables 文件没问题,难道是

Zookeeper单机伪集群

Zookeeper单机伪集群 1.配置 zookeeper下载地址:http://apache.mirrors.lucidnetworks.net/zookeeper/ 可以选择需要的版本,我下载的是zookeeper-3.4.3.tar.gz,解压得到文件夹zookeeper-3.4.3 在主文件夹下建立一个zookeeper文件夹,在zookeeper文件夹里建立三个目录server1,server2,server3: mkdir -p server1 server2 server3 然后每

方法-应用系统集群部署架构设计(监听、通知)

问题描述 应用系统集群部署架构设计(监听.通知) A类有个a方法,B类有个b方法,当外部调用a方法时,通知b方法执行,如果b方法在执行就不通知其执行,让其继续执行,外部一直在调用a方法,但b方法一直只有一个线程在执行,应用系统是集群部署,不管部署多少应用,b还是只用一个线程在运行,或在1号服务器或在2号服务器或在N号服务器运行.这样的场景怎么去设计怎么实现,请各位大虾提供一些思路或方法,谢谢. 再描述一下场景:应用集群部署,但是公用同一个数据库,系统向外抛一个接口,调用方下行数据,调用方有多个,

同一台计算机里伪集群时、其中ngnix+varnish+tomcat如何配置问题

问题描述 同一台计算机里伪集群时.其中ngnix+varnish+tomcat如何配置问题 我说的同一台计算机里做的伪集群,按照这个思想:访问网页的时候先经过ngnix.然后到达varnish最后访问tomcat这样如何配置?,特别是ngnix访问varnish这一步,谢谢! 解决方案 参考http://www.open-open.com/lib/view/open1404974447247.html 解决方案二: nginx反向代理到varnish做加速,然后再连tomcat做应用服务器.

Hadoop集群部署权限总结

这是一篇总结的文章,主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项.如果你想了解详细的过程,请参考本博客中其他的文章. 1. 开始之前 hadoop 集群一共有三个节点,每个节点的 ip.hostname.角色如下: 192.168.56.121 cdh1 NameNode.kerberos-server.ldap-server.sentry-store 192.168.56.122 cdh2 DataNode.yarn.hive.impala 192.168.56.123 cd

虚拟机-hadoop2.x集群部署一种一个datanode无法启动

问题描述 hadoop2.x集群部署一种一个datanode无法启动 Exception in secureMain java.net.UnknownHostException: node1: node1 at java.net.InetAddress.getLocalHost(InetAddress.java:1473) at org.apache.hadoop.security.SecurityUtil.getLocalHostName(SecurityUtil.java:187) at o

对于一个偶尔高并发的活动页面(涉及db操作,db为mysql,集群部署),你怎么做

问题描述 对于一个偶尔高并发的活动页面(涉及db操作,db为mysql,集群部署),你怎么做 对于一个偶尔高并发的活动页面(涉及db操作,db为mysql,集群部署),你怎么做 解决方案 高并发的话,可以通过据库集群.库表散列.缓存等技术: 偶尔的话,建议选择mongoDB非关系数据库.你是开发的话我想应该懂mongoDB吧. 对了景安新推出快云mongoDB,你可以去免费公测试试. 解决方案二: 高并发,一般使用负载均衡解决前端访问问题,用进程管理器解决业务逻辑调度问题,db如果是你的业务瓶颈

超详细从零记录Hadoop2.7.3完全分布式集群部署过程

超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Hadoop格式化.启动.(首更时间2016年10月27日) 主机名/hostname IP 角色 hadoop1 192.168.193.131 ResourceManager/NameNode/SecondaryNameNode hadoop2 192.168.193.132 NodeManager/