表格存储在QCon2017的分享

在QCon2017的基础设施专场，笔者以表格存储为基础分享了分布式系统设计的几点考虑，主要是扩展性、可用性和性能。每个点都举了一个具体的例子来阐述。这里对这次分享做一次简单的总结。

首先，说到了表格存储产生的背景，大规模、弱关系数据，对灵活schema变动的需求，传统数据库无法很好的满足，NOSQL的出现是一个很好的补充。NOSQL不是为了取代SQL，也无法取代SQL，是已有数据库生态的很好补充。我认为未来会出现更多种类的数据库，面向不同的业务，使用不同的硬件，数据库市场将迎来更多的成员。

然后介绍了表格存储的功能、生态、架构以及数据模型，有了这些基础才能更好的理解后面的内容。

在论述扩展能力的时候，笔者举了个例子。HBase在一次分裂之后，需要做Compaction才能继续分裂，Compaction时间可能数个小时，而表格存储支持连续分裂。那么，为什么表格存储要支持连续分裂呢？主要原因在于多租户服务和企业内产品的不同。对于表格存储而言，用户点点鼠标就可以开通，业务访问随时可能大幅上涨，用户不会提前告诉我们，即使告诉了也人力也没那么多。而访问量上涨有很大的可能导致分区内访问热点，这些热点需要系统能够快速的处理，1个分裂成2个，2个分裂成4个...。而在企业内部，业务一般可以预期的，很难出现运维不期望的巨量上升，所以对于HBase而言，连续分裂的必要性就降低了。这个不同，看似技术的不同，实际则是用户不同、产品形态不同带来的的不同选择。

在论述可用性的时候，特别讲了一个例子，就是谷歌BigTable和开源HBase都采用的在worker层聚合日志以提高性能。这个思路很好理解，就是将多个分区的日志聚合在一起，写入文件系统中，这样就能减少文件系统的IOPS，提高性能。但是，这对可用性是个很大的伤害，因为一旦机器发生failover，意味着日志文件需要被读出来按照分区进行分割，这些分割完的日志文件再被相应的分区replay，然后相应分区才能提供服务。显然，上面这个过程会使得机器failover时候分区不可用的时间变长（想想看谁来分割日志呢？这是否会成为瓶颈？）。如果考虑到全集群重启，或者交换机down导致较多机器失联，那么其对可用性的影响将十分可观。这里是一个可用性和性能的权衡，表格存储在设计之初，是选择了可用性的，也就是每个分区有独立的日志文件，以降低在机器failover场景下不可服务时间。但是这是否意味着性能的下降？是的，但是我们相信可用性优先级更高，而性能总会被解决，后来我们也找到了非常不错的办法，见下。

上面说到可用性和性能的权衡，表格存储选择了可用性，而放弃了性能。但是性能显然十分重要，于是我们重新思考了这个问题。BigTable和HBase的核心思想是聚合以减少IOPS，从而提高性能；那么聚合是否一定要做在table这一层呢？是否可以下推做到分布式文件系统层？结论当然是可以，而且效果更好，受益方更多。具体架构见附件里面的说明，我们通过将聚合下推到文件系统、RPC层小包聚合、Pipeline传输等大幅改进了性能，在可用性和性能之间取得了很好的平衡。
继续向下，我们说到了，作为一个平台，如何向用户学习。附件中给出了PK自增列用于消息推送系统的例子，这方面我们写过不少文章，见[2][3]。

[1]. QCon 2017资料: http://ppt.geekbang.org/qconsh2017
[2]. 高并发IM架构：
[3]. 打造千万级Feed流系统：
[4]. 演讲PPT下载：http://ppt.geekbang.org/slide/show/1122

时间： 2025-01-02 08:26:28

表格存储在QCon2017的分享的相关文章

阿里云表格存储技术分享

下面是之前在一个技术群里面分享的阿里云表格存储的内容,因为时间因素,只对[技术分享附件]中的少部分内容进行了分享,下面是分享内容,欢迎下载附件并就里面的内容深入交流. 接下来的内容分为几个方面,第一是背景,就是为什么要做这个东西:第二是几个使用场景,让大家有个感性的认识:第三是系统架构以及该架构如何做到高性能.高可靠.高可用:第四是一些工程经验:我也比较希望大家看看最后的附录中我对垂直和分层两大设计体系的思考,这部分我们可以做更深入的交流. 好,下面正式开始.先介绍为什么要做,大

表格存储技术方案实践及客户案例分享

表格存储是一款2014年10月份正式商业化的NoSQL数据存储服务,在商业化之前,早在2010年就在阿里云内部开始使用,云邮箱和云OS都是表格存储最早的一批用户.到目前,无论是在阿里集团内部还是在公共云环境上,在移动社交.金融风控.电商物流.存储备份.物联网IoT.日志监控.大数据分析报表等领域都有着广泛的用户基础与成熟的实践方案. 为了方便更多的用户了解和使用表格存储,该帖子会将最近非常有参考意义的方案设计.技术实践及相关客户分享的博客文章汇总到这里,大家可以在这里快速查找到和自己业务场景相近

10.11杭州Clouder lab 十分钟搭建共享应用1:函数计算及表格存储操作说明

欢迎大家来到无服务器(Serverless)编程的阿里云clouder lab实验课参与学习. 这几年,共享经济越来越火,大到共享汽车.共享电动车,小到共享雨伞,共享充电宝.人人参与,人人收益是共享经济最大的特点,共享经济提高了社会资源的利用率,也大大方便了我们的生活. 也正式由于人人参与的特点,共享经济给底层的系统架构带来了非常大的挑战.以目前主流的共享单车为例,单车数量达到千万之巨,日订单数以十亿百亿计,访问流量的波峰波谷非常明显,而传统的架构方案很难满足这种业务增长迅速,访问波峰波谷明显的

表格存储在互联网风控和金融数据服务上的应用实践

引言当前,第三方支付.P2P网贷.宝宝类理财.众筹等金融产品层出不穷,随着金融知识的普及,全民参与又进一步促进了互联网的发展.海量交易数据,实时在线访问,业务快速的迭代变化都对传统金融解决方案提出了更高的要求,而互联网金融本身的开放性,低门槛,征信信息的缺乏,又容易发生各类风险问题,这有给传统金融解决方案带来的新的挑战.借助云计算.大数据.搜索引擎等新一代高新技术,给互联网金融带来了新的机会. 新兴的互联网金融数据主要有以下几个特点: 海量数据由于参与的人数众多且活跃度较高,日交易单数通常能

如何使用表格存储实现网盘文件的极速秒传

目前不少云备份.网盘等产品都提供了秒传的功能,一方面能够显著的提高了用户的使用体验,另外一方面由于避免了不必要的文件传输,又有效的降低了存储成本与带宽成本. 而实现文件的"秒传",只需要通过客户端从文件中获取一个特征值,比如常用的 MD5 值,然后在服务器上保存所有文件的特征值进行比较,如果有重复的,就无需再上传数据,只需要复制一份文件的存储路径即可.进一步考虑到文件的分享.保存以及后期的清理,我们将文件的特征值与当前引用计数存储在元数据 DB 中. "秒传"机制看

表格存储的Java SDK优化经验

摘要本文介绍表格存储服务在优化Java SDK性能时的一些经验,作为一个支持海量数据.高并发访问的NoSQL服务,SDK的性能也显得尤为重要.SDK优化这项工作很久之前就已完成,现在将其中的一些经验再在公众号中与大家进行分享. 问题背景用户通过Java SDK来访问表格存储,在SDK内部也是有开销的,在高并发的场景下这些开销尤其突出.如果SDK的性能很差,用户为了达到更高的QPS,可能就需要使用更高性能的机器或者更多的机器,从而增加用户使用表格存储的成本.我们对SDK进行性能分析,也发现了很

表格存储服务在社交应用场景的实践

阿里云的表格存储服务(http://www.aliyun.com/product/ots)是一款面向PB级结构化/半结构化数据存储和百万级高并发读写访问的NoSQL数据库服务,在移动社交场景中有着非常广发的应用,如今非常火热的钉钉也将后台的消息推送和存储功能从MySQL迁移到表格存储上,以获得更加优秀的高并发和规模扩展能力:同时也有非常多的创业企业将企业自身针对客户的消息推送能力基于表格存储来构建.本文将详细介绍表格存储在移动社交中的技术实践.本文的主要内容已经在2016年云栖大会深圳场的存储论

基于表格存储的高性能监控数据存储计算方案

概述随着软件架构的愈发复杂,了解系统现状.调查问题的困难度也增加了很多.此时,一套完善的监控方案能够让开发和运维工程师快速排查问题,更好的维护系统的稳定性. 开源监控方案中,Zabbix.Nagios都是不错的监控软件,可以针对数十万的设备监控数百万的指标,强大的功能让开发和运维都很赞叹.但是,网上经常看到的抱怨是其写入和存储能力的不足,以Zabbix为例,文章[1]提到使用NoSQL方案(HBase.Cassandra.Riak)比利用传统RDBMS方案(MyS

表格存储实时数据流：Stream的技术揭秘和应用场景

在2017云栖大会-成都峰会上阿里云存储服务专家周赵锋做了题为<表格存储实时数据流:Stream的技术揭秘和应用场景>的分享.面对应用开发的新挑战和数据库新需求,基于共享存储的高性能.低成本.易扩展.全托管的表格存储能更好支撑互联网和物联网数据的高效计算与分析,并从特性.数据模型和高可用架构方面对表格存储进行简介.表格存储应用场景有即时通讯.安全风控.时序数据,使用表格存储的应用场景可以挖掘数据高附加值,实现存储对接计算.

猜你喜欢

利用JSP的思想来做ASP

js 程序的功能有了个大体的框架,其实可以自己添加一些功能,比如开始的数据库连接 ,可以先设置变量然后通过INIT() 来选择不同类型的数据库 <% 'On Error Resume Ne ...

Ajax缓存问题

Ajax缓存可以减少频繁访问服务器对其造成不必要的负担,但是同时也带来了一定特殊业务逻辑满足不了的问题. 例如: 需要通过前台一个select下拉列表来作为ajax的触发入口,同时将server返回的 ...

Secret of Photoshop 纹理篇（实战“树桩”一）

木纹理研究 2--实战"树桩" 大家好,我是JRT,又和大家见面了,真是高兴!在开始学习photoshop的时候,我一直以为这只是一个用来处理相片的软件.自从开始研究纹理效果,我越 ...

Ruby on Rails导航菜单自动生成的方法

最近在做的一个ROR的web项目中遇到如下问题: 产品可以按类分类导航浏览,主要可以分为A,B,C三类,三类之下还有其他分类,同时,基类和其下的分类都可以由用户扩展.从横向上,主类可以由用户扩展,纵 ...

个人考勤软件开发实例（Update）

更新说明:自拙作 attendance( 2.0 版 ) 个人考勤软件登出后,不时有网友来信交流,最近有网友指出程序中的一个缺陷:在打印预览窗口中工具条按钮的命令状态不能改变.现在这个问题已基本解决. ...

PS移花接木为暮光之城主角海报换脸教程

相信平常热衷于在各大媒体网站浏览的网友一定会发现一些十分有趣的恶搞图片.这些恶搞图片似是而非,让人捧腹大笑.这次的PS翻译教程将为大家介绍如何使用Photoshop打造个性化的<暮光之城> ...

wps怎么关闭热点

1.大家可以看到弹出的热点我们点击"设置"会出现"一周后显示"或者"当天显示"这里设置最多我们一个星期不见到它,过了一个星期它又会回来. ...

百度卫士如何查杀病毒？

百度卫士软件有"闪电云查杀"."全盘查杀"."自定义查杀"三种病毒查杀模式,您可以选择您需要的模式进行病毒查杀. "闪电云查杀&q ...

怎样启动停止重启MySQL数据库服务器

如何启动/停止/重启MySQL 一.启动方式 1.使用 service 启动:service mysqld start 2.使用 mysqld 脚本启动:/etc/inint.d/mysqld sta ...

诺基亚推出WP8手机正适时

9月4日,诺基亚Windows Phone 8(简称WP8)手机面世了.<IT时代周刊>256期的<WP8手机:诺基亚的最后救赎>一文,分析并列举了WP8手机的优势及面临的问题 ...

扩展欧几里得算法求方程特解

对于不完全为 0 的非负整数 a,b,gcd(a,b)表示 a,b 的最大公约数,必然存在整数对 x,y ,使得 gcd(a,b)=ax+by. 代码实现如下: #include <iostr ...

Linux五种IO模型性能分析

socket阻塞与非阻塞,同步与异步 1. 概念理解在进行网络编程时,我们常常见到同步(Sync)/异步(Async),阻塞(Block)/非阻塞(Unblock)四种调用方式:同步: ...

异构智能吴韧：对标英伟达和 Google ，要做专用的 AI 芯片

离开百度的两年里,吴韧创办了一家做 AI 芯片的公司--异构智能(NovuMind).但在很长一段时间里,关于吴韧的去向和这家公司在媒体报道中几乎处于噤声状态. 按照吴韧一贯给人看似"低调& ...

js生成二维码实例(真实有效)

js文件 qrcode.js 代码 /*from tccdn minify at 2014-6-4 14:59:43,file:/cn/c/c/qrcode.js*/ /** * @fileov ...

html-chrome div滚动条不能自动滚动

问题描述 chrome div滚动条不能自动滚动下面内容通过Chrome打开后,按Tab键光标可以在文本框间移动,但是Div的滚动条没有跟着滚动是为什么呢?(IE没有问题) <html> ...

王宝强离婚成了谁的狂欢|严肃解读数据背后的媒体传播路径

◆ ◆ ◆ 前言据国外媒体报道,今日<福布斯>撰文展望了未来15年影响世界的主要五大技术,它们是新型计算机架构.基因组学.纳米技术.储能技术以及机器人技术.文章指出,随着这些技术相辅相成 ...

《Python自然语言处理》——1.1　语言计算：文本和词汇

1.1 语言计算:文本和词汇我们都对文本非常熟悉,因为我们每天都在进行阅读和写作.在本书中,把文本视为编写程序的原始数据,并通过很多有趣的编程方式来处理和分析文本.但在能写这些程序之前,必须得从了解 ...

MySQL索引设计背后的数据结构及算法详解

一.B-Tree基础知识 B-Tree(多路搜索树)是一种常见的数据结构.使用B-Tree结构可以显著减少定位记录时所经历的中间过程,从而加快存取速度.B通常认为是Balance的简称.这个数据结 ...

新手做友情链接的几点注意事项

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅我是一个新手,刚刚开始学习SEO, ...

Linux下实现定时器Timer的几种方法总结_Linux

定时器Timer应用场景非常广泛,在Linux下,有以下几种方法: 1,使用sleep()和usleep() 其中sleep精度是1秒,usleep精度是1微妙,具体代码就不写了.使用这种方法缺点比较 ...

改善工业投资环境

摘要: TCL集团去年完成了收入千亿的跨越,全国人大代表.TCL集团董事长兼CEO李东生一脸轻松.但是,他这次到北京参加全国两会的建议却是沉甸甸的关于加强中国工业竞争力的建议. 李东生 TCL集团去年 ...

涉嫌“庞氏骗局”，涉案大约6亿美元

美国金融监管机构17日指认一家互联网站涉嫌"庞氏骗局",涉案大约6亿美元,要求冻结这家网站的资产. 证券交易委员会当天向位于北卡罗来纳州夏洛特市的联邦地区法院提交起诉书,指认本州雷 ...

C#的访问修饰符是什么？

问题描述 C#的访问修饰符是什么? C#的访问修饰符是什么?,如题回答 C#的访问修饰符是什么?,如题回答 C#的访问修饰符是什么?,如题回答 C#的访问修饰符是什么?,如题回答解决方案 C#中,对 ...

link的Enumerable.Repeat循环速度过慢是什么原因造成的？是不是重复创建了对象？

问题描述 link的Enumerable.Repeat循环速度过慢是什么原因造成的?是不是重复创建了对象? link的Enumerable.Repeat循环速度过慢是什么原因造成的?是不是重复创建了对 ...

网购市场已提前“过年”？

本报讯 (记者任翀)"平时隔天就能送到的商品,现在怎么要两三天了?""http://www.aliyun.com/zixun/aggregation/35900.htm ...

flash 图片放大，放大五次就不放大，那个大于5的地方怎么写

问题描述 flash 图片放大,放大五次就不放大,那个大于5的地方怎么写 var dogInitx:Number = image_mc.x + image_mc.width/2; var dogIni ...

高权重网站的优势体现在哪些方面

摘要: 众所周知,网站权重是网站排名和网站收录提高的基础,我们在建设外联的时候大家一致提倡的是的高质量外联的建立,其中高质量外联的体现方式之一就是网站在搜索引擎中的权重问众所周知,网站权重是网站排名 ...

关于malloc字符串长度的问题

问题描述关于malloc字符串长度的问题刚刚在调试malloc出来字符串长度时发现最后输出strlen(a)总是比sizeof(a)后面乘的数多4,这是为什么?多出来的4是哪里的?新手提的问题比较 ...

Xenserver 7 fatsb文件丢失恢复方法详解

只是我之前遇到的一个问题,今天为了演示再次把问题还原下,来看看怎么实现恢复. [root@xenserver-DS-TestServer04 ~]# cat /etc/fstab UUID=6f29f ...

数据库-SQLServer如何对某一个表区分大小写

问题描述 SQLServer如何对某一个表区分大小写我创建的数据库有一个用户表,这个表有用户的用户名和密码,但是现在通过SELECT查询出来的结果是不区分大小写的,有没有什么方法可以区分大小写,但是 ...

热搜