一篇文章读懂阿里云企业级数据库最佳实践

今天阿里数据库不再是简单的电商业务,而是涵盖了视频娱乐、IM、地图、在线零售、新零售、物流、在线旅游、音乐、IoT等纵多领域。2017年双十一交易额达1682亿,数据库交易峰值也以数十倍的速度在增长。超大规模的业务压力,在阿里巴巴内部淬炼出了一套完整的企业数据库解决方案:超大数据分库分表技术、毫秒级别的跨地区数据传输、秒级RPO的备份技术、混合云数据库管理、支撑数万研发的数据库devops平台、基于机器学习的智能数据库优化技术。

超大数据规模下的分库分表技术实践

在阿里巴巴去IOE的浪潮中,数据库面临的第一个问题就是,运行在普通PC Server上的MySQL在单机容量、性能等方面无法直接替换原来的存储和小型机架构。另外,如果单个MySQL数据库太大,给数据库备份、DDL变更等都会带来很大的复杂度。DRDS就是在这样的背景下产生的,通过DRDS的分库分表功能,化整为零,一方面让核心数据库的压力分到多个分库中,实现了性能和容量的巨大的扩展能力;另外,单个较小库表也给维护带来很大的便利。在刚刚过去的的双十一,交易核心库承担约32.5万/秒的交易创建,如果是传统的集中式架构很难想象需要怎样的硬件支撑。

毫秒级延迟的数据传输服务

在两年前,阿里巴巴上线了数据中心异地双活项目。阿里在全国很多地方都有数据中心,异地双活一个最大的挑战就是如何在毫秒的级别实现跨地区数据中心的数据同步。如果这个延迟很大,举个例子,卖家更改了一个商品描述、或者修改了价格,那么有的地区的用户可能很久才能看到,这对买家和买家体验上都是巨大的牺牲。

阿里云早在2010年就开始在数据库流技术上做了很大的投入,通过在网络传输、并发写入等方面的极致优化,保证了多数据中心毫秒级的数据复制延迟。

2015年,我们在阿里云上也以产品的形式输出阿里巴巴数据流技术:数据传输DTS(https://www.aliyun.com/product/dts )。除了复杂异地多活,DTS还可以解决很多企业内部数据流的问题,例如在线数据库上的数据变更,可能同时有数个下游需要这些数据,比如数据仓库、搜索、相关业务、实时大屏等。在云端,我们的一个典型的客户的场景,当有新的用户进行某个操作(或者是一次购买,或者是某次签到),那么下游的运营系统,可能要实时对用户行为进行一次分析,同时根据智能的分析,决定向用户推送某个实用的信息或者运营消息等。

基于数据流技术的,秒级RPO备份技术

数据传输DTS是通过日志获取的方式来获得数据变更。这项技术的另一个创新应用就是,实现秒级RPO的在线数据备份。我们先对数据库进行一次全量备份,然后使用DTS相同在线日志获取技术获取最新的数据库日志,然后对日志进行存储归档,从而实现秒级RPO的备份解决方案。

这次云栖大会,我们也重磅发布了我们“数据库备份”产品,让云上的用户也可以使用这项技术进行数据库备份。针对云环境的特殊性,我们新增了加密传输和存储模块,存储的目标也支持标准、低频、归档多种OSS存储类型,让用户可以更低成本、更安全的使用秒级RPO的数据备份解决。

支撑数十个机房,数十万实例的混合云数据库管控技术

阿里巴巴数据库管控系统发展至今已经到了第四代架构,第四代架构是基于BASE理论和微服务架构下完成,实现了管控系统的多机房容灾问题。另外,海量的数据库管理也带来更多的挑战:全网秒级监控让您轻松掌握数据库上千个指标,抓住数据库每一个细节;异地多活让你如何通过一键完成异地数据库搭建,实现异地数据库服务;一般管控系统更多聚焦在运维层面,而阿里的企业级服务还具备更多垂直的数据库能力,例如数据轨迹、数据回滚、数据库压测、业务大盘等。

支撑数万数据库用户的DevOps数据管理平台

企业规模快速发展,带来的两个大的挑战,管理的数据库数量巨大,使用数据库员工也非常多。但是,DBA团队却很难以相同的比率增长。具体的,我们发现,DBA业务压力巨大,需要处理事情繁多;同时,新入职的员工,对于数据库开发标准并不熟悉,给线上数据库的稳定性带了很大隐患。

既要有DBA的安全把控能力,又希望高效支撑大量业务的发展,阿里数据库团队研发了自己的企业数据库管理平台:iDB。企业内部的研发、测试等人员,可以使用iDB完成大部分数据库相关的操作,包括数据查询、数据变更、结构变更、实例申请等等。另外,iDB产品中还继承了大量DBA的经验,比如判断哪些DDL会锁表、InnoDB表结构设计是需要主要哪些问题等等。

iDB上可以闭环完成所有的数据库服务,包括实例申请、库表设计、变更发布、数据查询、数据变更、逻辑表查询、数据库下线等全生命周期的数据库实例管理。同时,通过平台集成的数据库能力,让研发有了更强数据库能力,也保障了线上业务的稳定。

基于机器学习的智能数据库性能优化技术

随着阿里巴巴快速扩张,传统的DBA支持的性能优化模式的弊端很快就体现出来:被动优化(监控/报警/慢SQL/应用报错等);优化过程耗时耗力且低效,较难形成闭环;优化结果受限于人的局限性;优化操作大规模复杂场景下缺乏扩展性;优化决策过程中数据价值缺失;DBA专家紧缺与数据库服务要求高效及时之间的矛盾越来越突出。

智能数据库性能优化技术在性能优化上分五大部分:收集、分析、预测、优化、验证。可以完整的、自助的完成优化并评估优化的效果。给企业带来多方面的价值。信息透明:向开发人员提供全面专业的数据库 信息分析和展示。自助化服务:全面专业的诊断优化建议,诊断流 程闭环,提供自助优化服务。自诊断、自优化:基于海量数据和机器学习的自诊断、自优化能力。降低成本:发现规模化优化点,优化资源管理,降低计算和存储成本。专家经验产品化:DBA专家优化经验转服务产品化,降低人工成本,提高服务质量和效率。主动优化:持续主动优化数据库性能,提高数据库稳定性。

时间: 2024-09-18 15:31:46

一篇文章读懂阿里云企业级数据库最佳实践的相关文章

一篇文章读懂阿里云负载均衡性能保障型实例

什么是负载均衡性能保障型实例? 性能保障型实例提供了可保障的性能指标(性能SLA).与之相对的是性能共享型实例,即不保障实例的性能指标,资源是所有实例共享的. 在阿里云负载均衡推出性能保障型实例之前,用户所有购买的实例均为性能共享型实例.在控制台上,可以查看已购实例的类型. 把鼠标移至性能保障型实例的绿色图标,可查看具体的性能指标,如下图所示. 性能保障型实例的三个关键指标如下: 最大连接数-Max Connection 最大连接数定义了一个负载均衡实例能够承载的最大连接数量.当实例上的连接超过

一篇文章看懂阿里钉钉发展史

一篇文章看懂阿里钉钉发展史 责任编辑:editor005 |  2016-09-15 21:52:53 本文摘自:凤凰科技 2014年5月26日 阿里巴巴钉钉创始人陈航(花名:无招)带领其他6位员工组成创始团队进驻湖畔花园,这群旨在探索更好工作方式的人,在阿里内部开始了疯狂纯粹的尝试,研发工作商务领域的沟通.协同多端平台. 2015年1月16日 钉钉1.0版本正式上线,正式进入企业级市场.提供PC版,Web版和手机版,支持手机和电脑间文件互传.突破了很多传统企业级应用的局限,打通了移动网络和运营

一篇文章读懂企业如何升级到云安全体系

本文讲的是一篇文章读懂企业如何升级到云安全体系,本文为青藤云安全供稿,青藤是国内首家自适应安全提供商,自适应安全是为数不多的云安全落地解决方案. 对于云安全这个新兴概念,从咨询机构.云平台到安全厂商,行业内各家机构众各有解读.但很少从企业角度出发,清楚指明安全部门对云安全这种全新解决方案的真实需求是如何产生的,以及如何规划云安全架构,如何和原有安全功能进行协同. 最近,Gartner的一篇分析报告提出了一种全新的安全解决方案--云工作负载安全平台(Cloud Workload Protectio

一篇文章读懂 iOS 和 Android 的历史起源

智能手机虽说是移动电话,但我们完全可以将其作为小型化的电脑来思考.这样一来也能够显示出智能手机OS的高性能.我们首先一起来回顾下智能手机OS的历史. 其实在很早之前就已经有这样的想法,即在像智能手机这样可以便利携带的小型电脑终端上运行OS. OS的黎明期 大 约20年前左右,在美国的拉斯维加斯举办的世界最大的电脑相关产品展示会"COMDEX"上,日本索尼公司开发的当时称之为"MagicjLink"的携 带型信息终端吸引了很多的关注(图1).这款终端并不仅仅是一款用来

菜鸟末端轨迹(解密支撑每天251亿个包裹的数据库) - 阿里云RDS PostgreSQL最佳实践

标签 PostgreSQL , PostGIS , 多边形 , 面 , 点 , 面点判断 , 菜鸟 背景 菜鸟末端轨迹项目中涉及的一个关键需求,面面判断. 在数据库中存储了一些多边形记录,约几百万到千万条记录,例如一个小区,在地图上是一个多边形. 不同的快递公司,会有各自不同的多边形划分方法(每个网点负责的片区(多边形),每个快递员负责的片区(多边形)). 用户在寄件时,根据用户的位置,查找对应快递公司负责这个片区的网点.或者负责该片区的快递员. 一.需求 1.在数据库中存储了一些静态的面信息,

(新零售)商户网格化运营 - 阿里云RDS PostgreSQL最佳实践

标签 PostgreSQL , PostGIS , 地理位置 , KNN , 近邻检索 , 网格检索 , polygon中心点 , 半径搜索 背景 伟大的马老师说: "纯电商时代很快会结束,未来的十年.二十年,没有电子商务这一说,只有新零售这一说,也就是说线上线下和物流必须结合在一起,才能诞生真正的新零售" 线上是指云平台,线下是指销售门店或生产商,新物流消灭库存,减少囤货量. 电子商务平台消失是指,现有的电商平台分散,每个人都有自己的电商平台,不再入驻天猫.京东.亚马逊大型电子商务平

时间、空间、对象 海量极速多维检索 - 阿里云RDS PostgreSQL最佳实践

标签 PostgreSQL , 时间 , 空间 , 对象属性 , 多维度检索 , 海量 , 空间索引 , 数据分区 , 块级索引BRIN , 多级索引 , GIN倒排索引 , JSON索引 , 多列索引 , 多索引扫描合并 , bitmapAnd , bitmapOr , 物理扫描 , ctid扫描 , intersect , partial index , partition index 背景 人类或者其他对象的活动产生了海量的时间.空间数据,如果有科技能实现回到过去,过去的世界状态会是什么样

数据寻龙点穴(空间聚集分析) - 阿里云RDS PostgreSQL最佳实践

标签 PostgreSQL , Greenplum , PostGIS , K-Mean , 热力图 背景 最近鬼吹灯热播,胡八一的<十六字阴阳风水秘术>到底是什么武功秘籍?寻龙点穴又是什么?别问我,不知道. PS:截取自互联网.- 寻龙点穴是风水学术语.古人说:三年寻龙,十年点穴.意思就是说,学会寻龙脉要很长的时间,但要懂得点穴,并且点得准则难上加难,甚至须要用"十年"时间. 但是,若没正确方法,就是用百年时间,也不能够点中风水穴心聚气的真点,这样一来,寻龙的功夫也白费了

医疗大健康行业案例(老人健康实时监测和预警) - 阿里云RDS PostgreSQL最佳实践

标签 PostgreSQL , pipelineDB , 流式计算 , 独立事件相关性 , 舆情分析 , 实时状态分析 , 递归查询 , 时序数据 背景 人的身体和机器差不多,随着年龄的增长,器官逐渐老化,毛病也会越来越多,注意保养是一方面,另一方面也需要注意实时的监测和发出预警,在问题萌芽状态就解决掉. 以往我们检查身体得去医院或专业的体检机构,很麻烦,随着科技的进步,一些健康指标的监测变得更加方便,例如手环也是一个普及很快的监控检测终端(目前已能够检测心跳.温度.运动等各项指标),未来这种终