Kafka（分布式发布订阅消息系统）

http://kafka.apache.org/

目前越来越多的开源分布式处理系统如Apache Storm、Spark都支持与Kafka集成。

使用场景：设想这样一个情景：想分析用户在网站上的的浏览行为。这些浏览日志，存数据库浪费，直接存硬盘又怕到时候操作效率低。
此时，消息系统就是一个选择。

1.组件

Broker
['brəʊkə] n.经纪人
Kafka集群包含一个或多个服务器，这种服务器被称为broker。
Topic
每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。
Partition
每个Topic包含一个或多个Partition。
Producer
生产者，负责发布消息到Kafka broker。
Consumer
消费者，从Kafka broker读取消息的客户端。
Consumer Group

每个Consumer属于一个特定的Consumer Group。

2.常用类

2.1消费者

kafka.javaapi.consumer.ConsumerConnector
kafka消费者的连接信息。
ConsumerConnector kafka.consumer.Consumer.createJavaConsumerConnector(ConsumerConfig arg0)
创建ConsumerConnector。
Map<String, List<KafkaStream<byte[], byte[]>>> kafka.javaapi.consumer.ConsumerConnector.createMessageStreams(Map<String, Integer> topicCountMap)
根据制定的map创建
kafka.consumer.KafkaStream<byte[], byte[]>
Kafka消息流。
kafka.consumer.ConsumerIterator<byte[], byte[]>
kafka消费者的迭代器。
MessageAndMetadata<byte[], byte[]>
Kafka消息。
byte[] kafka.message.MessageAndMetadata.message()
得到MessageAndMetadata中的信息。

2.2生产者

kafka.javaapi.producer.Producer<Integer, String>
kafka生产者。
kafka.javaapi.producer.Producer.Producer<Integer, String>(ProducerConfig arg0)
Producer的构造函数。
kafka.producer.ProducerConfig
Producer配置。
kafka.producer.ProducerConfig.ProducerConfig(Properties arg0)
ProducerConfig的构造函数。
void kafka.javaapi.producer.Producer.send(KeyedMessage<Integer, String> arg0)
kafka生产者发送消息。

3.消息交付特点

1. kafka对消息的重复、丢失、错误以及顺序没有严格的要求。
2. kafka提供at-least-once delivery,即当consumer宕机后，有些消息可能会被重复delivery。
3. 因每个partition只会被同一consumer group内的一个consumer消费，故kafka保证每个partition内的消息会被顺序的订阅。

4. Kafka为每条消息为每条消息计算CRC校验，用于错误检测，crc校验不通过的消息会直接被丢弃掉。

5.增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化。

4. partition 的个数考虑

a) 如果consumer比partition多，是浪费，因为kafka的设计是在一个partition上是不允许并发的，所以consumer数不要大于partition数。
b) 如果consumer比partition少，一个consumer会对应于多个partitions，这里主要合理分配consumer数和partition数，否则会导致partition里面的数据被取的不均匀。

5.带弄懂

a)server怎么标识不同的consumer？是zk自己分配编号，还是consumer构造函数的参数指定？

b) 何为一个consumer？进程还是线程还是别的什么？

c)consumer所在机器性能低，个数与partition个数一致还是消费不充分怎么办？

时间： 2025-01-30 10:12:55

Kafka（分布式发布订阅消息系统）的相关文章

Apache Kafka是分布式发布-订阅消息系统

转自: http://www.infoq.com/cn/articles/apache-kafka?utm_source=infoq&utm_medium=popular_links_homepage 简介 Apache Kafka是分布式发布-订阅消息系统.它最初由LinkedIn公司开发,之后成为Apache项目的一部分.Kafka是一种快速.可扩展的.设计内在就是分布式的,分区的和可复制的提交日志服务. Apache Kafka与传统消息系统相比,有以下不同: 它被设计为一个分布式系统,易

一脸懵逼学习KafKa集群的安装搭建--（一种高吞吐量的分布式发布订阅消息系统）

1:KafKa的官方网址:http://kafka.apache.org/ 开发流程图,如: 2:KafKa的基础知识: 2.1:kafka是一个分布式的消息缓存系统2.2:kafka集群中的服务器都叫做broker2.3:kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接2.4:kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载2.

雅虎开源发布/订阅消息平台Pulsar

雅虎发布了其发布-订阅消息平台Pulsar,这个平台在他们内部已经用在了多项服务的生产环境之中. 按照雅虎的说法,Pulsar是一个低延迟的发布/订阅消息系统,它可以进行水平扩展,跨多个主机和数据中心.雅虎从2015年第二季度开始,就一直在邮件.财经.Gemini Ads.Sherpa(雅虎的分布式key-value服务--译注)以及体育相关的功能中使用Pulsar.通过将其开源,他们希望Pulsar能够与其他开源项目进行集成,从而促使它得到广泛的应用.雅虎已经将Pulsar部署到了十个以上的数

RabbitMQ 2.6.0发布企业消息系统

RabbitMQ 2.6.0本次发行的一大亮点是引入主动-主动HA,及队列在集群节点之间的复制.还有许多其他的改进,尤其是管理和重载插件程序,以及许多的错误修正. RabbitMQ是一个AMQP的实现,是高性能企业消息的新兴标准. RabbitMQ服务器是基于一个可靠的平台,Erlang/OTP,提供极高的可靠性,可用性和可伸缩性.它提供了良好的吞吐量和延迟性能,是可预测的和相容的.结构紧凑,易于维护的代码库,促进快速定制和部署. RabbitMQ的发行还包括一个Java客户端,与任何兼容的AM

发布订阅-消息队列如activmq、redis等，支持按模式匹配订阅者，却不支持按模式发布消息?

问题描述消息队列如activmq.redis等,支持按模式匹配订阅者,却不支持按模式发布消息? 消息队列如activmq,rabbitmq,redis等,支持按模式匹配订阅者,但只支持简单的*号?号等,为什么不支持正则表达式? 为什么发布者发布消息时,不能按模式发布? 求大神指点....

Apache Kafka 0.8.2.1 发布，消息发布订阅系统

Apache Kafka 0.8.2.1 发布,该版本修复了 4 个关键 bug: [KAFKA-1919] - Metadata request issued with no backoff in new producer if there are no topics [KAFKA-1952] - High CPU Usage in 0.8.2 release [KAFKA-1971] - starting a broker with a conflicting id will delete

《Spark大数据分析：核心概念、技术及实践》一1.4　消息系统

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1.4节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问"华章计算机"公众号查看. 1.4 消息系统数据通常从一个应用流向另一个.一个应用产生数据,而后被一个或多个其他应用使用.一般来讲,生成或发送数据的应用叫作生产者,接收数据的则叫作消费者. 有时候,产生数据的应用数量和使用数据的应用数量会出现不对称.比如,一个应用可以产生数据,而后被多个消费者

分享一个分布式消息总线，基于.NET Socket Tcp的发布-订阅框架，附代码下载

一.分布式消息总线在很多MIS项目之中都有这样的需求,需要一个及时.高效的的通知机制,即比如当使用者A完成了任务X,就需要立即告知使用者B任务X已经完成,在通常的情况下,开发人中都是在使用者B所使用的程序之中写数据库轮循代码,这样就会产品一个很严重的两个问题,第一个问题是延迟,轮循机制要定时执行,必须会引起延迟,第二个问题是数据库压力过大,当进行高频度的轮循会生产大量的数据库查询,并且如果有大量的使用者进行轮循,那数据库的压力就更大了. 那么在这个时间,就需要一套能支持发布

消息队列中点对点与发布订阅区别（good）

背景知识 JMS一个在 Java标准化组织(JCP)内开发的标准(代号JSR 914).2001年6月25日,Java消息服务发布JMS 1.0.2b,2002年3月18日Java消息服务发布 1.1. Java消息服务(Java Message Service,JMS)应用程序接口是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送消息,进行异步通信. 点对点与发布订阅最初是由JMS定义的.这两种模式主要区别或解决的问题就是发送到队列的消息能否重

猜你喜欢

android view视图的层叠（叠加）

第一种情况:google android textview drawable 参考: setCompoundDrawable to add Drawables to TextVi ...

网页设计小技巧：如何隐藏网页中的层DIV

技巧|设计|网页|网页设计 div的visibility可以控制div的显示和隐藏,但是隐藏后页面显示空白: style="visibility: none;" document. ...

SQL Server中发送邮件的新方式

server|发送邮件说是新方式,其实也是早就用到的技术了,所以放上来! 在.NET中,大家知道,可以使用System.Web.Mail来发送邮件.在Framework 1.1下支持验证. priv ...

zblog、统计、网摘、广告和我的博客

博客|广告|统计晚上刚刚上传好ZBLOG,文章都还没几篇,便迫不及待的准备给我的博客做统计啊,弄广告啊,累是累了点,不过还好,通过在百度里的拼命寻找,终于找到了几篇文章,帮我弄好了我的小站,为了大家 ...

细数百度近来的一些改进

一直以来,搜搜.搜狗等搜索引擎丝毫未能撼动百度的霸主地位,而掌握了浏览器入口的360综合搜索的出现,似乎让百度感到了威胁.如果你一直关注百度,那么你应该能发觉百度近来的改动频繁,下面方维网络和大家一起 ...

如何让一个函数返回多个值（C#）

函数有两种方法:1.使用指针变量声明函数(或者使用数组变量)2.使用传出参数第一种方法:函数返回的是一个指针地址(数组地址),这个内存地址有多个变量寄存在里面.这个方法我不太会用,传地址传值我 ...

UNIX操作系统的版本与标准

从UNIX操作系统的发展历程可以知道UNIX系统存在着变体和版本间的差异.随着UNIX被越来越多的商业部门和政府所采用,人们要求对UNIX系统制定统一的标准,这不仅可以方便UNIX用户和开发者的使用, ...

Lotus Domino与IBM WebSphere的集成开发

对于很多人来说,集成是这个新的世纪中应用过滥的一个词,但它到底意味着什么,又该如何利用它来满足应用程序开发的需要呢?IBM WebSphere 技术及其集成解决方案可以解决业务.组织和技术方面的问题. ...

Sync Service for ADO.NET程序调试（二）

使用Tracing生成LOG(数据同步的日志) [DEVICE篇] 在Device上调试的原理与Desktop相同,只是相关配置文件有所区别,第一次看这篇文章的朋友,请先参阅[Desktop篇] 在 ...

photoshop绘制圆形水晶按钮

最终效果图 1.新建文件,宽.高都为5,单位cm,分辨率200,模式为RGB,白色背景. 2.用圆形选框工具画出圆形选框,在选区内点鼠标右键,选"通过拷贝的图层"项(图层1). 3 ...

Mac上图片处理那些事儿用好照片来帮你

数码后期处理高手通常是这样看待后期的:软件再强大都是没用的,专业与便利的完美融合,能够高效率处理出完美的作品才最重要.这说明了,如果你没有时间去学习强大万能的PS,那么找到一款适合你的,简单易上手的软 ...

Win7系统下NVIDIA显卡出现风扇转速异常或噪音大的正确解决方法

很多人都很在意自己电脑的显卡配置,尤其是男生,游戏所需配置要求显然比一般上网所需配置要求更高.但是最近有用户反映Win7系统NVIDIA显卡风扇转速异常,噪音变大,尤其在玩游戏时,给正常的使用电脑 ...

win7电脑防火墙无法启动

1.首先,咱们同时按下win7旗舰版电脑键盘上的win+R快捷键打开电脑的运行窗口,在打开的运行窗口中,咱们输入regedit并单击回车,这样就可以打开win7旗舰版电脑的注册表编辑器窗口了. 2 ...

网页打印不全设置方法

网页上打印不能全纸张显示,字缩放在纸张中间.困扰了一个上午,终于找到了解决方法,其实很简单,只需两步设置方法: 1. 网页上打开"文件"里"页面设置"; 2. ...

细数 Windows 8.1的12个变化，开始按钮回归但功能不再

class="post_content" itemprop="articleBody"> 所有正版 Win8 用户都翘首期盼着更新上最新的 Win8.1, ...

哲

世界是物质的,物质是运动的,运动是有规律的. 系统论:要全面地.联系地.发展地看待事物,不要片面地.孤立地.静止地看待事物. 按客观规律办事:实事求是. 普遍规律与特殊规律相结合:具体问题具体分析. ...

《Access 2007开发指南(修订版)》一一2.5　字段属性操作

2.5 字段属性操作 Access 2007开发指南(修订版) 在表中添加了字段之后,就应该自定义它们的属性.可以使用字段属性来控制数据的存储方式,以及什么样的数据可以输入到字段当中.根据所选定字段类 ...

包罗万象的大数据

泄密者爱德华·斯诺登(Edward Snowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒. 奥巴马当局声称,监听数据带来了 ...

PropertySet教程-1.简介和配置

inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish ). PropertySet(来源:http://blog.csdn.net/inkfi ...

急需多用户开源BLOG一个，大家帮帮忙阿！

问题描述谁有免费开源的多用户Blog,c#的源码以及数据库(最好是SQLServer2000)的数据库:发给我邮箱一份.邮箱:caiwanguo319@126.com特别说明:我也是搜索了目前网上各 ...

hibernate注解多对多级联保存怎么解

问题描述 hibernate注解多对多级联保存怎么解 @ManyToMany(mappedBy=""sysUsers""cascade={CascadeType ...

Chrome开始集成图形识别 API（Shape Detection API）

最近,Chrome团队尝试在Chrome中集成了一套与图形识别相关的API,使得图形识别这种以前只在原生应用中存在,或者在浏览器上,要借助其他难用的外部库才能实现的功能,现在只要少量代码即可实现.这些 ...

ios xmpp研究探索：接收消息

在接收到好友发过来的消息时, 如果是正在与之聊天,则需要更新当前聊天列表,即插入一条新的消息记录: - (void)xmppStream:(XMPPStream *)sender didReceiv ...

Android开发者生态：开发难度高用户不愿付费

Android平台终于创造出它的第一个百万财富故事,遗憾的是主角仍是让人审美疲劳的<愤怒的小鸟>(Angry Birds).2010年10月底,开发此游戏的芬兰公司Rovio从取得极大成功 ...

请教各位老师，做ASP网站，想要用table做成下面这个效果，请问应该怎么做

问题描述请教各位老师,做ASP网站,想要用table做成下面这个效果,请问应该怎么做?是像竖着的那种二级菜单那种吗?不想用div,DIV的现在太复杂了,时间不够解决方案解决方案二:干脆把网页保存 ...

iOS9 系统分享调用之UIActivityViewController_IOS

UIActivityViewController类是一个标准的view controller,通个使用这个controller,你的应用程序就可以提供各种服务. 系统提供了一些通用的标准服务,例如拷贝 ...

PHP中的日期及时间_php基础

PHP有很多便于使用的函数以显示及处理日期. 要以某种特定格式显示日期或时间,可使用date()函数.它有两个参数:如何显示日期的格式以及代表你所要显示日期的时间戳.这个时间戳必须是先前所提到的从 ...

php生成xml的简单代码(实例说明)

当处理基于XML应用程序时,开发者经常需要建立XML编码数据结构.例如,Web中基于用户输入的XML状态模板,服务器请求XML语句,以及基于运行时间参数的客户响应. 尽管XML数据结构的构 ...

js一维数组、多维数组和对象的混合使用方法_javascript技巧

这篇文章的主要目的是讲解JavaScript数组和对象的混合使用,由于JS的弱检查特性,因此在JS数组中可以同时存储不同类型的变量,比如你可以把数字.字符串.字符.对象等内容放在同一个数组中.对象也可 ...

《Clojure数据分析秘笈》——3.2节使用STM管理程序复杂度

3.2 使用STM管理程序复杂度Clojure并发特性的基础是它的STM系统.这基本上是将数据库事务的语义扩展至计算机内存中.STM工作方式是使用ref函数标记由STM控制的内存位置.可以使用dere ...

热搜