Kafka在微软的使用

Kafka Summit 2016中有一个微软MS/Bing团队的分享。看了数据给大家分析下。微软有一套服务化的数据管道EventHub，作为云产品售卖。但在Bing、Ads、Office等场景上仍在使用Kafka，在整个公司规模上大概是一半 vs 一半。主要使用Kafka考虑是Kafka与开源流处理系统结合得更好（spark、storm等）。

一些数据

先来看一些基础的数据：

一天500TB，如果协议中带了压缩，一天原始数据量为2.5 PB左右（5倍压缩率），并不是非常大
大约1300台机器，每台机器处理384GB 数据。平均每台机器4MB/S写入流量，峰值约为6-7MB/S。说明效率并不是很高。3份拷贝计算，写入流量平均每台机器峰值20MB左右。
Incoming vs outcoming大约是1：3左右，说明数据有3-4个消费者
1.3 Million/S 输入，一天500TB，一个包大小为4.4KB

从一年的变化量上来看，增长还是挺快的，说明微软从15年1月份开始投入开源的拥抱。

架构

微软在Kafka上包了Collector收集器，和消费API，类似LogHub Client Lib (Consumer Group)。

在消费端做除了拖以外、还提供了推的模式。类似AWS Kinesis Firehose，LogHub 的Shipper。目标是Kafka 另外Topic，COSMOS（数仓）以及Hadooop。

数据

做了一层Restful API

为了能够使得数据有语义，没有采用Confluent的Schema Center，而是采用了在数据上加了一个Header，通过自描述语义构建了包的类型和版本等。

为了能够支持微软的编程习惯，做了一套Kafka C# SDK，还是蛮拼的

Storm with C# - SCP.NET (http://www.nuget.org/packages/Microsoft.SCP.Net.SDK/)
Spark with C# - Mobius (https://github.com/Microsoft/Mobius)
Kafka with C# - C# Client for Kafka (https://github.com/Microsoft/Kafkanet)
BOND (https://github.com/Microsoft/bond)

监控

在监控E2E消费时，用了一个挺重的方法来测量延时。既把数据到达时间，消费时间通过Spark Streaming做了Join，显示在ELK上。这个其实大可不必这样，只要能够知道ConsumerGroup 消费的CheckPoint是否是最新的，就能够知道了，何必大费周折。

结尾

微软用Kafka主要目的还是为了更容易使用流计算、ELK等开源软件，从安全性、使用上而言，Kafka在收集端、消费端、监控等仍有非常多的点需要提高。

很多用法、思路微软和我们其实挺像的，有兴趣可以了解下日志服务（LogHub）与Kafka对比，链接。

时间： 2024-08-03 07:58:06

Kafka在微软的使用的相关文章

kafka数据可靠性深度解读

1 概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.Spark等都支持与Kafka集成. Kafka凭借着自身的优势,越来越受到互联网企业的青睐,唯品会也采用Kafka作为其内部核心消息引擎之一.Kafka作为一个商业级消息中间件,消息可靠性的重要性可想而知.如何确保消息的精确传输?如何确保消息的准确存储?如何

Kafka深度解析

[本文转自于Kafka深度解析] 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率.即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输同时支持离线数据处理和实时数据处理为什么要用消息系统解耦在项目启动之初来预测将来项目

LinkedIn详细介绍了由他们开源的Kafka Monitor

Kafka Monitor项目的动机有三个: 需要监控和测试Kafka部署并跟踪主干稳定性,以便他们能够尽早捕获正在开发的变更集中的问题: 需要不间断地在生产集群上监控SLA,并不断地在测试集群上运行回归测试: 现有的监控框架无法满足其用例的扩展性.模块化需求,他们需要一个自定义的客户端库. 网站可靠性工程部门过去已经监控了输入速率.离线分区数和正在复制的分区数等指标,以确定Kafka集群的可用性和系统整体的健康状况.然而,问题在于,这类原始的值本身无法表明集群在终端用户体验方面是否真的可用.

Apache Kafka：大数据的实时处理时代

在过去几年,对于 Apache Kafka 的使用范畴已经远不仅是分布式的消息系统:我们可以将每一次用户点击,每一个数据库更改,每一条日志的生成,都转化成实时的结构化数据流,更早的存储和分析它们,并从中获得价值.同时,越来越多的企业应用也开始从批处理数据平台向实时的流数据数据平台转移.本演讲将介绍最近 Apache Kafka 添加的一些系统架构,包括 Kafka Connect 和 Kafka Streams,并且描述一些如何使用它们的实际应用体验. 注:本文由王国璋在 QCon 北京 201

《Kafka官方文档》设计（二）

6. Message Delivery Semantics 现在我们对Producer和Consumer已经有了一定的了解,接着我们来讨论Kafka在Producer和Consumer上提供的语义.显然的,在分发消息时是可以有多种语义的: At most once:消息可能丢失,但不会重复投递 At least once:消息不会丢失,但可能会重复投递 Exactly once:消息不丢失.不重复,会且只会被分发一次(真正想要的) 值得注意的是这分为两个问题:发布消息的可用性和消费消息的可用性.

微软启用第三个物联网与人工智能内部实验室

微软昨天宣布将开放第三个物联网与人工智能内部实验室(IoT & AI Insider Labs).新的实验室坐落于德国慕尼黑,从4月开始启用,将在现有位于美洲(华盛顿雷蒙德)和亚洲(中国深圳)基础上进一步覆盖EMEA地区. 使命这个实验室的使命是为物联网和人工智能领域的初创公司提供设施和专业知识,提供的设施包括激光切割机.回流炉和3D打印机,此外还有拥有物联网硬件.嵌入式系统软件.云工程设计.物联网.机器学习和人工智能方面专业技能的人员.初创公司可以申请使用该实验室,如果申请被接受,他们计划参

微软政务云支持HDInsight和PowerBI Pro

微软宣布在微软政务云中支持HDInsight和Power BI Pro.这些新服务将帮助政府管理,分析和可视化大量数据.除了这些服务,微软还宣布了Azure政府认知服务的预览,可用于音频和文本翻译成其他语言,以及面部(性别和年龄)和情绪识别,与计算机视觉和情感. 微软政务云支持HDInsight和PowerBI Pro HDInsight拓宽了政府部门构建数据分析解决方案的格局: 在几分钟内部署大数据分析集群.无需前期成本投入. 使用Kafka,Storm和Spark为HDInsight实时启用

LinkedIn 详细介绍了他们开源的 Kafka Monitor

在2016年4月份举行的Kafka峰会上,LinkedIn在Apache 2.0许可协议下开源了Kafka Monitor,并于近日详细介绍了该监控工具的架构以及他们最初的构建动机.在年初的时候,LinkedIn曾在一篇有关Kafka整体应用的文章中简单地提及过Kafka Monitor,但并没有详细介绍该项目的语义组成或者背后的动机. Kafka Monitor项目的动机有三个: 需要监控和测试Kafka部署并跟踪主干稳定性,以便他们能够尽早捕获正在开发的变更集中的问题: 需要不间断地在生产集

Kafka原理

Kafka 这段时间研究RabbitMQ.Kafka.RocketMQ消息队列,发现对她们原理的介绍都过于简单,所以整理了众多资料,写成下面这边Kafka的原理.主要内容包括: 功能与使用场景:特性.适用场景. 基本概念:Broker.Topic.Partition.Partition.Producer.Consumer.Consumer Group kafka模型:producer-broker-consumer模型,集群部署模型 Topic . Partition . 消息文件 Produc

猜你喜欢

ado net-Datatable dt 接受 sqldatereader 总是出现类型转换失败

问题描述 Datatable dt 接受 sqldatereader 总是出现类型转换失败 DAL 是用 sqldatereader 写的在Load cs里面 Datatable dt 接受 sql ...

建构大型商业系统所要考虑的事项

建构大型商业系统所要考虑的事项1.远程访问.考虑客户端与服务器端连接逻辑.包括分发请求,参数代理等.2.负载均衡.客户端必须使用最小的负载连接到服务端.如果当一个服务器端负荷太重,因该选者另外一个服务 ...

电子商务网站的目标定位和运营措施

电子商务网站的定位很重要.如果模式是现在热门路线,那么肯定会受到阿里巴巴.慧聪.时代第一.环球资源.敦煌网等一批著名的网站狙击,而处于一个半死不活的状态.为什么不会死? 现在的企业很重视网络营销,不管 ...

jsp 连接数据库大全

js|连接数据库许多初学jsp的网友经常会问数据库怎么连接啊,我总结一下,对一些资源进行了搜集和整理,仅供大家参考,其实这种把数据库逻辑全部放在jsp里未必是好的做法,但是有利于初学者学习,当大家学 ...

用户研究:引导用户的笨办法

以前啊,有段时间,自从我们在用户信息中显示IP所在城市后,跟帖中就充满了地域攻击.广东人/北京人/上海人/河南人,混战一团,甚至本省城市也频繁内斗.我觉得这很要命,如果你因为自己的城市而被别人辱骂,就 ...

DataGrid输出到Excel并进行格式化处理

datagrid|excel 在我们把DataGrid上的数据导入到Excel的时候,如果遇到比较长的数字字符串,比如身份证号码,就会在Excel里当成数字看待,并转换成科学计数法的格式,造成数据的丢 ...

用VB打造你自己的网络游戏平台（－）

网络在很多学C的人眼中,VB或是用VB的人他们都不屑一顾,因为在他们的眼中,VB无论是从速度上还是从结构控制上都没法和C相比.以前在网上看到过很多人就VB和C的关系问题,大家可以说是争得不可开交.其 ...

Photoshop实现三角形像素马赛克效果

效果图图00 第1步准备一张作为banner背景的照片,下面我们以下图作为演示. 图01 第2步复制两次背景层. 图02 第3步使用自由变换工具(Ctrl + T 或选择主菜单"编辑 ...

使用Jazz Automation编写自动化测试

Jazz Automation介绍 Jazz Automation是一个测试框架,构建它的目的是为所有类型的Web系统或者静态网站自动化同时加速验收/功能测试.它还能够容易地实现自动化集成测试. 以 ...

SharePoint中如何实现ajax异步加载数据

初到公司,由原想的asp.net开发转向了SharePoint(简称SP)开发,个人感觉与之前差别不大,今天用sp实现异步加载数据的时候遇到点问题,之前在asp.net下一步都是用 jquery.aj ...

位图进度条

图一例子效果玩过破天的朋友知道,游戏更新时进度是用位图表示的,我觉的挺漂亮的,于是自己动手做了一个类来实现那种效果. 这个类的名字叫CBmpProgCtrl,继承于CStatic,使用方法如下. ...

Linux中mmap与munmap函数系统调用

内存映射函数mmap, 负责把文件内容或者其他对象映射到进程的虚拟内存空间, 通过对这段内存的读取和修改,来实现对文件的读取和修改,而不需要再调用read,write等操作.文件或者其他对象被映射到多 ...

word表格怎么拆分?

word表格怎么拆分? 1.以下图中的表格为例演示操作步骤 2.现在要把此表格一为二,一到六月为一表格;七到十二月为一表格;选中七月这一行; 3.然后,在文档上方的命令栏中顺序 ...

Win7经常黑屏怎么办？常见电脑黑屏处理办法

电脑黑屏的情况比较常见 ,通常的原因是硬件问题,比如硬件老化等 ,也有是因为显卡驱动的问题.还有,如果你安装的系统不是正版的Windows XP专业版,那么电脑将被强行每小时黑屏一次,即电脑桌面的背景 ...

三步在WPS文字插入结构图

1.打开WPS文字,选择视图--工具栏--绘图,把绘图工具栏调出到界面上.点击其中的横向文本框选项,完成如下图所示的主体内容,右键单击文本框,选择设置对象格式,可以更改背景颜色. 2.在绘图工具栏 ...

JS实现点击链接取消跳转效果的方法

有时候我们仅仅希望将链接<a>作为一个按钮使用,但是在默认状态下,点击链接会出现跳转效果,下面就通过代码实例,介绍一下如何实现此效果代码如下: <!DOCTYPE html&g ...

Win7系统下添加直接使用摄像头功能的简单方法

Win7.Win8系统下区别于XP系统,通常不显示单独的摄像头图标,若希望实现此功能,只需下载附件中的摄像头插件,双击运行即可实现摄像头图标在"我的电脑.计算机"下面的显示. 测试 ...

PicPick怎么截取不规则的图片

PicPick截取不规则的图片的方法/步骤: 1.安装并打开PicPick图片编辑工具; 2.如首图,在下方选择任意形状选项; 3.操作界面如下图: 4.画一个不规则的图形; 5.可以对图片进行处 ...

怎样在启动OS X时禁止加载指定分区

OS X会在启动时加载所有存在的分区,有许多朋友都在分区内装有非OS X系统,但如果在启动设备时不想加载个别系统,怎么办呢?方法当然是有的,我们可以通过修改系统内控制加载分区的fstab文件来指定 ...

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

阿里云建跃：WAF，一场惊心动魄的搜捕

蒙恬北筑长城,却匈奴七百余里. 守卫家园的人,永远把自己写成一首诗. 陵谷沧桑,如今太平盛世.边关宁息商旅往来,曾经的金戈铁马退隐成一道道海关闸口.而在这一道道闸口旁,坐着那些火眼金睛的边检警察. 去 ...

达梦数据库签约泰国教育部奠定行业领先地位

近日,国内知名数据库厂商达梦宣布与泰国教育部达成深度合作协议,共同搭建泰国教育部云平台"智慧泰国"项目,达梦数据库将为泰国教育信息化的升级改造提供有力的技术支撑.本项目的成 ...

网站内部页面如何正确的微调

中介交易 SEO诊断淘宝客云主机技术大厅对于网站内部页面的微调,相信大家都不是很陌生,在遇到排名停滞不前,流量无法突破,网站跳出率高,长尾关键词排名不好,网站转化率低等的时候,很多人都会选择对 ...

解决方案-android 4.4 webview播放视频全屏无效

问题描述 android 4.4 webview播放视频全屏无效最近使用webview播放优酷视频发现点击全屏后 WebChromeClient接收不到onShowCustomView()的回调, ...

mobl-在phonegap build上构建的app在android手机上无法运行

问题描述在phonegap build上构建的app在android手机上无法运行用mobl语言开发的手机端web程序在电脑上浏览器里可正常运行,在phonegap build上构建的app,下载 ...

SVG

SVG 是 HTML5 中矢量图的标记语言,它保持了强大的绘图能力的同时,具有非常高端的使用接口,通过直接操作 Dom 节点的形式来操作图形. 本课程意在让学生掌握 SVG 这门语言和它对应的一些 ...

centos 7 安装开源数据统计piwik

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47146525 未经博主允许不得转载. 1,关于piwik Piwik是一套基于P ...

C#与VB.NET代码自动转换插件(For Visual Studio)

问题描述 ivanx著于2007-11-2918:56:13附件中的源代码包括一个VisualStudio的插件项目.这个插件可以在tools菜单中添加一个按钮,用于转换Vb.net代码到C#,或者C ...

access-excell导入到Access显示类型转换错误

问题描述 excell导入到Access显示类型转换错误导入excell数据到Access,有一字段是文本,可是excel的文本导入却显示类型转换错误解决方案你将Excel的单元格格式转换成纯文 ...

“高价月饼”转战网络“躲猫猫”

印象中,鲍鱼.鱼翅应是豪华大餐的主角.可如今,鲍鱼.鱼翅竟悄悄地出现在了小小的月饼中.今年6月1日起实施的<月饼强制性国家标准>,对采用过度豪华外包装的奢侈月饼进行了限制,可随着中秋月饼的 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.027 s.