Instagram提升PostgreSQL性能的五个技巧_数据库其它

 随着Instagram的规模日益扩大,Postgres继续充当着Instagram的坚实基础,并存储着绝大部分的用户数据。不到一年之前,我们还曾在博客上说Instagram“存储着大量数据”,每秒增加90条数据,现在,这个数据已经增长到了峰值的10000条。而我们的基础存储技术依然保持不变。

在过去的两年半中,我们有一些关于Postgres扩展的经验和工具,想要分享出来。真希望在当初启动Instagram的时候就能有这些经验和工具呀。其中有些是Postgres独有的,有些是其它数据库也可以采用的。如果想要了解我们是如何水平分区的,可以看这篇文章。

1. 局部索引

如果我们经常需要按某个固定的特征过滤数据,而且这个特征只存在于一小部分行里,在这种情况下,局部索引非常有效。

比方说,Instagram搜索标签的时候,我们需要找出有许多照片的标签。我们一般会用ElasticSearch之类的技术来进行高级搜索,不过这里只靠数据库的查询能力就完全够了。先来看一下,按标签查询,并按照片数排序,Postgres是怎么做的:
 

EXPLAIN ANALYZE SELECT id from tags WHERE name LIKE 'snow%' ORDER BY media_count DESC LIMIT 10;
QUERY PLAN
---------
 Limit (cost=1780.73..1780.75 rows=10 width=32) (actual time=215.211..215.228 rows=10 loops=1)
  -> Sort (cost=1780.73..1819.36 rows=15455 width=32) (actual time=215.209..215.215 rows=10 loops=1)
     Sort Key: media_count
     Sort Method: top-N heapsort Memory: 25kB
     -> Index Scan using tags_search on tags_tag (cost=0.00..1446.75 rows=15455 width=32) (actual time=0.020..162.708 rows=64572 loops=1)
        Index Cond: (((name)::text ~>=~ 'snow'::text) AND ((name)::text ~<~ 'snox'::text))
        Filter: ((name)::text ~~ 'snow%'::text)
 Total runtime: 215.275 ms
(8 rows)

有没有看到,为了得到结果,Postgres不得不对15000行数据进行排序。由于标签的分布满足长尾模式(译者注: 根据百度百科,「我们常用的汉字实际上不多,但因出现频次高,所以这些为数不多的汉字占据了上图广大的红区;绝大部分的汉字难得一用,它们就属于那长长的黄尾。」),我们可以改为查询超过100张照片的标签,先建局部索引:
 
CREATE INDEX CONCURRENTLY on tags (name text_pattern_ops) WHERE media_count >= 100
然后查询,看一下新的查询计划:
 

EXPLAIN ANALYZE SELECT * from tags WHERE name LIKE 'snow%' AND media_count >= 100 ORDER BY media_count DESC LIMIT 10;

QUERY PLAN
 Limit (cost=224.73..224.75 rows=10 width=32) (actual time=3.088..3.105 rows=10 loops=1)
  -> Sort (cost=224.73..225.15 rows=169 width=32) (actual time=3.086..3.090 rows=10 loops=1)
     Sort Key: media_count
     Sort Method: top-N heapsort Memory: 25kB
     -> Index Scan using tags_tag_name_idx on tags_tag (cost=0.00..221.07 rows=169 width=32) (actual time=0.021..2.360 rows=924 loops=1)
        Index Cond: (((name)::text ~>=~ 'snow'::text) AND ((name)::text ~<~ 'snox'::text))
        Filter: ((name)::text ~~ 'snow%'::text)
 Total runtime: 3.137 ms
(8 rows)

可以看到,Postgres只需要访问169行,所以速度快得多。Postgres的查询计划器对约束的评估也很有效。如果以后想要查询超过500张照片的标签,由于这个结果集是上面集合的子集,所以仍然会使用这个局部索引。

2. 函数索引

在某些表上,我们需要对一些很长的字符串建立索引,比如说,64个字符的base64记号。如果直接建索引的话,会造成大量的数据重复,这种情况下,可以用Postgres的函数索引:
 

CREATE INDEX CONCURRENTLY on tokens (substr(token), 0, 8)

虽然这样会造成许多行匹配相同的前缀,但我们可以在匹配的基础上再用过滤,速度很快。而且索引很小,只有大概原来的十分之一。

3. 用pg_reorg来让数据更紧凑

随着时间的流逝,Postgres的表会变得越来越零碎(由MVCC并发模型等原因引起)。而且,数据行插入的顺序往往也不是我们希望返回的顺序。比如说,如果我们经常要按用户来查询照片等,那么最好是在磁盘上把这些东西放在一起,这样就可以减少磁盘寻道的时间。

我们用pg_reorg来解决这个问题,它用三个步骤来让“压紧”一个表:

  1.     取得表的独占锁
  2.     建一个记录变更的临时表,在原始表上加一个触发器,把对原始表的变更复制到临时表上
  3.     用CREATE TABLE...SELECT FROM...ORDER BY建表,新表拥有原始表的全部数据,而且是按索引顺序排序的
  4.     将CREATE TABLE执行时间点以后发生的变更从临时表同步过来
  5.     业务切换到新表

每一步都会有很多细节,不过大体上就是像上面这个样子。我们先对这个工具进行了一些审查,运行了若干测试,然后再把它用到生产环境上。现在,我们已经在几百台机器的环境上跑过几十次pg_reorg,没出现过任何问题。

4. 用WAL-E进行WAL(写前日志)的归档和备份

我们用WAL-E来归档WAL日志,它是Heroku写的一个工具,我们也向它贡献了一部分代码。WAL-E大大简化了数据备份和复制库创建的过程。

WAL-E是利用Progres的archive_command,将PG产生的每个WAL文件都归档到Amazon的S3。利用这些WAL文件和数据库的基准备份,我们可以将数据库恢复到基准备份后任何一个时间点的状态。利用这个手段,我们也可以快速创建只读的复制库或故障备用库。

我们为WAL-E写了一个简单的封装脚本,可以监控归档时的重复故障,见GitHub。
 
5. psycopg2中的自动提交模式和异步模式

我们也开始用psycopg2中的一些高级功能(psycopg2是Postgres的Python驱动)。

一个是自动提交模式。在这个模式里,psycopg2不会发出BEGIN/COMMIT,每个查询跑在自己的单语句事务里。这对不需要事务的只读查询特别有用。开启很简单:

connection.autocommit = True

开启自动提交后,我们的应用服务器和数据库之间的对话大减,数据库服务器的CPU用量也大减。而且,我们是用PGBouncer作为连接池,开启自动提交后,连接的归还也更快了。

与Django的交互细节可以看这里。

psycopg2还有一个很有用的功能,它可以通过注册一个等待回调(wait callback)函数,提供协同程序(coroutine)支持。它可以支持跨连接查询,对命中多个节点的查询非常有用,当有数据时,socket会被唤醒(我们利用Python的select模块来处理唤醒)。它也可以与eventlet和gevent等多线程库很好的协作,参考实现可见psycogreen。

总的来说,我们对Postgres的高性能和可靠性十分满意。想在世界上最大之一的Postgres集群上工作吗?想跟一群基础设施高手们一起干活吗?请联系infrajobs@instagram.com吧。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索postgresql
数据库 性能提升、postgresql恢复数据库、postgresql查看数据库、postgresql创建数据库、postgresql删除数据库,以便于您获取更多的相关知识。

时间: 2024-09-17 04:19:12

Instagram提升PostgreSQL性能的五个技巧_数据库其它的相关文章

改进Web站点性能的五个方面_服务器

对一个电子商务网站来说,需要运用最少的带宽和服务器资源,为更多的客户提供更快捷的服务.而用户对Web站点的满意度,主要以访问速度来衡量. 从用户角度来说,Web站点只有"快"和"慢"之分:用户往往并不要求实现大容量数据传输,而是希望网站在保证性能的同时,能够容纳更多的访问者.Web用户所关心的问题的实质是访问时间.从网络维护角度说,导致时延的潜在因素是多方面的,大致来讲,可以从5个方面改进Web站点的性能:缓冲.压缩.CPU优化.运用内容分发网络(CDN)及客户端软

一个提升PostgreSQL性能的小技巧_数据库其它

 在一个(差)的PostgreSQL 查询中只要一个小小到改动(ANY(ARRAY[...])to ANY(VALUES(...)))就能把查询时间从20s缩减到0.2s.从最简单的学习使用 EXPLAIN ANALYZE开始,到学习使用 Postgres community 大量学习时间的投入将有百倍时间到回报. 使用Postgres监测慢的Postgres查询 在这周早些时候,一个用于我们的图形编辑器上的小表(10GB,1500万行)的主键查询,在我们的一个(多个)数据库上发生来大的查询性能

技术干货:使用静态缓存提升网站性能的五种方法!

本文作者: 乔锐杰 现担任上海驻云信息科技有限公司运维总监/架构师.曾任职过黑客讲师.java软件工程师/网站架构师.高级运维.阿里云架构师等职位.维护过上千台服务器,主导过众安保险.新华社等千万级上云架构.在云端运维.分布式集群架构等方面有着丰富的经验. 以下正文 上次写了一篇数据库缓存,由于快餐式的风格,遭到了广大读友的吐槽.上篇风格有点 " 虚 ",我本身是一个技术控,偏向经验/干货的分享,本文主要描述静态缓存方面的一些心得及分享.作为系列二,有所不足之处,依旧希望大家踊跃&qu

提升Web性能的8个技巧总结

在互联网盛行的今天,越来越多的在线用户希望得到安全可靠并且快速的访问体验.针对 Web 网页过于膨胀以及第三脚本蚕食流量等问题,Radware 向网站运营人员提出以下改进建议,帮助他们为用户提供最快最优质的访问体验. 1. 管理"页面膨胀" 页面大小与性能有着密切的关系.Radware 最新电商性能"行业现状"报告显示,100 强电商页面大小中位数达到了 1492KB,比一年半之前增大了 48%. 在研究报告里加载最快的 10 个页面中,页面包含的资源请求中位数为

数据库正规化和设计技巧_数据库其它

在动态网站的设计中,数据库设计的重要性不言而喻.如果设计不当,查询起来就非常吃力,程序的性能也会受到影响.无论你使用的是mySQL或者Oracle数据库,通过进行正规化的表格设计,可以令你的PHP代码更具可读性,更容易扩展,从而也会提升应用的性能.  简单说来,正规化就是在表格设计时,消除冗余性和不协调的从属关系.在本文中,我将通过五个渐进的过程来告诉你在设计中应该了解的正规化技巧.从而建立一个可行而且效率高的数据库.本文也会详细分析一下可以利用的关系类型.  这里假定我们要建立一个用户信息的表

数据库的设计方法、规范与技巧_数据库其它

一.数据库设计过程 数据库技术是信息资源管理最有效的手段.数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,有效存储数据,满足用户信息要求和处理要求. 数据库设计中需求分析阶段综合各个用户的应用需求(现实世界的需求),在概念设计阶段形成独立于机器特点.独立于各个DBMS产品的概念模式(信息世界模型),用E-R图来描述.在逻辑设计阶段将E-R图转换成具体的数据库产品支持的数据模型如关系模型,形成数据库逻辑模式.然后根据用户处理的要求,安全性的考虑,在基本表的基础上

在PostgreSQL中实现递归查询的教程_数据库其它

 介绍 在Nilenso,哥在搞一个 (开源的哦!)用来设计和发起调查的应用. 下面这个是一个调查的例子: 在内部,它是这样表示滴:   一个调查包括了许多问题(question).一系列问题可以归到(可选)一个分类(category)中.我们实际的数据结构会复杂一点(特别是子问题sub-question部分),但先当它就只有question跟category吧. 我们是这样保存question跟category的. 每个question和category都有一个order_number字段.是

推荐Sql server一些常见性能问题的解决方法_数据库其它

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放

介绍PostgreSQL中的范围类型特性_数据库其它

 PostgreSQL 9.2 的一项新特性就是范围类型 range types,通过这个名字你可以轻松猜出该类型的用途,它可让你为某列数据定义数值范围. 这个简单的特性可以让我们不需要定义两个字段来描述数值的开始值和结束值,一个最直观的例子就是:   postgres# CREATE TABLE salary_grid (id int, position_name text, start_salary int, end_salary int); CREATE TABLE postgres# I