海量存储系列之二

在上一篇里面，我们对数据库的抽象的组成原理进行了简单的描述。在这一篇里面，我们一起来看看，如何能够使用kv这样的工具。来完成关系代数运算。

那么，让我们先来热热身:

这是一组数据，以pk作为主键，user_id和Name是外key.

那么，如果我要运行查询:Select from tab where id = ?

应该如何进行呢？

这里需要一些额外的知识，在数据结构中，有那么一种结构，可以用于处理按照某个key找到value的过程，抽象来看，一种方法是二分查找法，一种方法是hash.

如果各位是java用户，那么二分查找的实现可以认为是个TreeMap的实现，而Hash的方法则可以认为是hashMap的实现。如果是个c/cpp的用户，那么就二分查找就对应map实现。而hash实现则对应stl里面的hash_map。

那么，这里的这个问题，我们就很容易可以解决了

以id作为map的key,以其他数据作为value，把所有数据都放入到map里面，然后再使用id=1作为key,从map中找到对应的value返回即可。（这一个部分，我们在后面的章节里面还会介绍，现在大家只需要有个大概的印象即可）

怎么样？是不是很简单？那么，我们来讨论更进一步的问题：

如果我想找到符合Select from tab where user_id = 0的所有结果，应该如何去作？

仔细想想。那么第一种做法一定是这样。

把整个集合内的所有数据，都拿出来，然后找到user_id的数字，如果user_id=0，那么就认为是符合要求的记录，直接返回。

如果不是user_id=0，那么不匹配，丢弃这条记录即可。

这样一定可以找到所有符合要求的记录。

然而，这样作，带来的问题是，我有多少条记录，就需要进行多少次这样的匹配，那么，假设有100000000000000000条记录，就需要匹配这样多次，才能找到符合要求的记录。这是个悲剧。。

那么，怎么解决这个悲剧呢？

于是有些聪明人就又想起了map结构，hash或tree，不都可以按照k找到value么。那我们这里也可以利用这个map结构嘛。。

也就是说，以user_id作为key,id作为value，构建一个Map.不就又能进行快速查询了么。

于是，就有了数据库最重要的一个结构“索引” 这种以外键作为key,主键作为value的东西，有个专有的名字，叫做二级索引。

有了二级索引，我们的所有查询，都可以以接近O(LogN)(有序数据)，或O(1)的效率找到我们需要的数据。是不是很爽？

但这不是银弹，你付出了空间成本，本质来说就是空间换时间的过程。同时，也会降低写入的效率。

怎么样？理解了没？如果自认为对这些都了解了，那么我们再来看一个问题：

如果我要找的是：Select …where user_id = ? And name = ‘袜子’

应该怎么做呢？

估计很多人都立刻又会想起那个Map，对的，但在这里，我想给出以下的几种查询的模式：

1. 遍历所有数据，取出一条以后，查看user_id = 0 and name=’袜子’是否符合要求，如果符合，则返回数据。

这是个合理的策略，空间最为节省，但带来的损耗是要遍历所有的数据。

2. 如果有个user_id -> pk的索引

，那么我们可以先按照user_id，找到一组符合要求的pk list.然后再根据pk list，再回到

取出符合要求的数据后，判断name=‘袜子’这个条件，如果符合，就返回，不符合，就丢弃。

这是个折衷策略，在空间和性能中，尽可能的找到个合理的区间的策略。

题外话，这个“根据pk list，再回到pk=>整个数据的kv表中，找出符合要求的数据后，判断name=‘袜子’这个条件，如果符合，就返回，不符合，就丢弃”的策略，在数据库有个专有名词，叫回表。

3. 组合索引

这是个新名词儿，但其实也是个很简单的概念。

直接上图：

:-)，其实就是个很简单的策略，先比较user_id进行排序，如果user_id相同，那么比较name排序。

这样，假定我们有100000条记录，属于100个用户，那么平均来看，每个用户就只有1000条记录了。

原来要回表1000条记录才能找到符合要求的数据，而如果使用组合索引，这1000条，也可以使用O(log2N)或者O(1)的策略进行检索啦。

在很多场景中，都能够提升效率和速度。但付出的是更多的存储空间。

好啦，这篇就介绍到这里，留个题目给大家：

假设有这么一组数据，性别有4种，user_id是一对多的关系，如果我想查询

select * from tab where user_id in (?,?,?,?) and 性别=’不明’

如何进行索引构建能够获得比较好的效果呢？

本文来源于"阿里中间件团队播客",原文发表时间" 2011-12-07"

时间： 2024-08-27 20:20:42

海量存储系列之二的相关文章

海量存储系列之十二

本章,我们主要来讨论数据的管理和扩容中最重要的一个部分,数据迁移. 数据迁移是数据运维中最为重要的一个部分,在前面的文章中已经提到过,作为有状态的数据节点,在互联网行业的主要追求就是,无限的水平扩展能力,这种水平扩展,主要用于解决两类问题,一类是磁盘空间不足的问题,一类是性能不足的问题. 为了达到这种能力,一般来说主要也就是这样一个思路,尽可能的让数据不动,只通过规则变动的方式来完成扩容,如果这种方式无法满足要求,那么再通过移动数据的方式,来满足其他的一些需求. 下面来进行下分析. 只通过变动规

海量存储系列之八

首先来回答一个问题:为什么在磁盘中要使用b+树来进行文件存储呢? 原因还是因为树的高度低得缘故,磁盘本身是一个顺序读写快,随机读写慢的系统,那么如果想高效的从磁盘中找到数据,势必需要满足一个最重要的条件:减少寻道次数. 我们以平衡树为例进行对比,就会发现问题所在了: 先上个图这是个平衡树,可以看到基本上一个元素下只有两个子叶节点抽象的来看,树想要达成有效查找,势必需要维持如下一种结构: 树的子叶节点中,左子树一定小于等于当前节点,而当前节点的右子树则一定大于当前节点.只有这样,才能够维持全局

海量存储系列之十三

在上一章中,我们主要介绍了规则引擎中最重要的一个部分,自动扩容,在今天的章节,我们主要还是介绍一下我们在淘宝TDDL中的工程实践吧. 首先从原理开始吧. 规则引擎是什么呢? 对应在上述例子里面,其实就是DBNum = pk % 3 这个规则. 他的变化可能很多,比如对于一致性hash则变为一个if - else 的表达式(见前面) 也可能有其他的变化. 所以,我们要回归本源,问一个问题,什么是规则引擎? 抽象来看,规则引擎在做的事情是,根据一组输入条件(例如主键id,或者用户id+时间,或者一个

海量存储系列之十一

上一期我们主要在介绍hash相关的切分方式,那么这次我们来看一下有序结构的切分有序结构的拆分,目前主要就是使用树或类似树的结构进行拆分,这里主要就是指HBase和MongoDB. 使用树结构切分,带来的好处就如hbase和mongoDB的宣传标语一样,可以无缝的实现自由扩展.但反过来,带来的问题其实也不少,下面我们一起来看一看吧. 首先复习B树知识http://qing.weibo.com/1765738567/693f0847330008ii.html 在B树中,最关键的处理逻辑是如果单个节

海量存储系列之六

上次我们讲到,单机事务个我们面临的问题,下面我们来说一些我所知的解决的方法. 在我开始做淘宝数据层的时候,被问得最多的无非也就是:如何做事务,如何做join.至今仍然如此,我一般都会简单而明确的跟对方说:没有高效的实现方法. 虽然没有高效的实现,但实现还是有的.作为引子,我们先来介绍一下这种实现的方式. 我们仍然以上一次讲到的bob和smith为例子来说明好了. 开始的时候.Bob要给smith100块,那么实际上事务中要做的事情是事务开始时查询bob有多少钱.如果有足够多的钱让bob的账户

海量存储系列之九

终于来到了COLA树系,这套东西目前来看呢,确实不如LSM火,不过作为可选方案,也是个值得了解的尝试,不过这块因为只有一组MIT的人搞了个东西出来,所以其实真正的方案也语焉不详的.从性能来说,tokuDB的写入性能很高,但更新似乎不是很给力,查询较好,占用较少的内存. http://www.mysqlperformanceblog.com/2009/04/28/detailed-review-of-tokutek-storage-engine/ 这里有一些性能上的指标和分析性文字.确实看起来很心

海量存储系列之七

在上一个章节,我们阐述了分布式场景下,事务的问题和一些可能的处理方式后,我们来到了下一章节 Key-value存储这一章,我们将进入k-v场景,其实,在大部分场景下,如果某个产品宣称自己的写读tps超过其他存储n倍,一般来说都是从k-v这个角度入手进行优化的,主要入手的点是树的数据结构优化和锁的细化,一般都能在一些特定的场景获得5-10倍的性能提升.由此可见key-value存储对于整个数据存储模型是多么的重要. 好吧,那么我们来进入这个章节,用最简单和浅显的话语,阐述这些看起来很高深的理论吧

海量存储系列之四

单机事务: 其实在上面介绍ACID的时候我们已经提到了一种最简单的实现方式,就是锁的实现方式. 从原理来看,事务是个变态而复杂的事情.其实如果是序列化的话呢,那么实现起来一定是非常简单的. 但问题就在于,这样性能实在比较低,于是,就有了非常多的方案,为了能哪怕减少一个地方的锁,或者降低一个地方的锁的级别,就付出大量的时间和代码加以实现. 那么,让我们以崇敬的心情,去拜读一下他们的劳动成果吧~ 在上一篇中,我们谈了事务管理的四个核心要素,其中有两个要素是和性能紧密相关的,其实也就是需要涉及到锁的

海量存储系列之一

一个数据库,我们可以抽象的认为由下面的一个逻辑结构组成,刨除意义不大的视图,存储过程,外键限制等之后,我们就剩下了下面的这张图: 从API来说,也就是SQL,结构化查询语言,这个东东我们后面再去细说,先来看看这个关系代数模型. 之所以要从这里开始,主要的原因是因为,这是最受到关注的一个部分,自大从一开始做分布式数据层开始,被人问得最多的问题就是:1. 切分以后如何做join.2.如何进行分布式事务.. 可惜,现在我也没有一个方法能做到100%让您满意..因为,没有银弹,只有取舍. 取舍的原则,也

猜你喜欢

python判断字符串是否包含子字符串的方法

这篇文章主要介绍了python判断字符串是否包含子字符串的方法,实例分析了Python中的in与find方法来实现这一功能,非常具有实用价值,需要的朋友可以参考下本文实例讲述了python ...

如果你想做Web2.0网站应该注意这些问题

web|web2|问题提到Web2.0,我们需要先说一说Web1.0. Web1.0是门户网站的天下,其特点就是大型网站,编辑众多,大量的职业编辑可以保证网站每天更新成百上千条记录,更新快,内容也不 ...

linux下apache+mysql+php开发环境纯源代码编译搭建

apache|mysql|编译|源代码记录一下我在fedora core 1下通过源代码编译出来的apache+mysql+php开发环境的全部过程通常安装一台服务器当然使用rpm是最方便的,不需 ...

总结：关于ASP.NET 2.0一些简单而有用的技巧

asp.net|技巧 1.在CallBack之后保持滚动条的位置在Asp.Net1.1中,CallBack之后保持滚动条的位置是一件非常痛苦的事情,特别是页中有一个Grid并且想要编辑特定的行.为了 ...

FLASH简单三步制作飞越星空效果

动画效果: 首先新建一长和宽为420PX:帧频:25:背景色为黑色的影片: 第一步:先建一影片剪辑:共30帧:是一个白色的圆从大到小水平运动的动画:及第一帧是长和宽为10的大圆:透明度为100:第30 ...

Power BI for Office 365（六）Power Map简介

如果说Power BI中最给力的功能是什么,我觉得是Power Map.Power Map第一次是出现在SQL Server 2014的新特性里被提及,前身就是GeoFlow.在Power Map下可 ...

.NET初学者架构设计指南（一）Hello world的时代

中学的时候,学校里开设了电脑课.当时的电脑还是一种比较希罕的东西,学校里的电脑一共就十几台,还专门找了一个大厅摆放这些机器.厅里面铺着厚厚的地毯,整天都拉着重重的窗帘.每次上课前一天,我们需要沐浴 ...

Java编程那些事儿77——包装类

9.5.5 包装类 Java语言是一个面向对象的语言,但是Java中的基本数据类型却是不面向对象的,这在实际使用时存在很多的不便,为了解决这个不足,在设计类时为每个基本数据类型设计了一个对应的类进行代 ...

Enterprise Library Step By Step系列（九）缓冲应用程序块

写在前面:企业库Step By Step系列的随笔今天已经是第九篇了,期间得到了很多朋友的支持,他们认为给初学者提供了很好的资料,在这里表示衷心的感谢.也有朋友反映说关于企业库使用的文章网上已经有了很 ...

Photoshop绘制华丽大气的水晶花朵

要绘制的不仅是花朵,还包括茎及叶子部分.不过绘制方法都是一样的:重点渲染暗部及高光部分.其它部分只是形状及颜色略有不同. 原图 1.首先我们来制作花朵部分,由一些蓝色及橙色花瓣构成,需要完成的效果如下 ...

PS制作立体黄金质感文字教程

其实很简单,利用图层样式的"浮雕效果"及"描边"两个操作就出来了. 先看下效果: 1.输入文字,并用填充金属色 2.应用图层样式的浮雕效果,具体调整如下: 分类 ...

怎么进入Windows 8系统的“安全模式”

方法一.从Win8系统"电脑设置-高级启动"中进入安全模式手指从屏幕右侧向中间划动或者按"Win+I"快捷键打开Win8的超级按钮(Charm栏),点击& ...

如何调整笔记本电池充电最低百分比?

如何调整笔记本电池充电最低百分比?现在电池是少于95%才充电,如何调整这一比例为任意比例?Windows 7的电源选项里面可以调吗. 联想的笔记本的单独电源管理软件是可以设定的,商务系列的华硕笔记本好 ...

笔记本电源接通未充电怎么回事？

笔记本电脑不充电主要是三个原因引起的. 首先,我们先来排查软件问题.通常来说,很多电脑品牌如戴尔.联想.索尼等,均会为自家笔记本配备电源管理软件.如果启用了某种"电池保护模式" ...

手机上传-手机端网页头像上传裁切，浏览器不支持JCROP？有别的办法么？

问题描述手机端网页头像上传裁切,浏览器不支持JCROP?有别的办法么? 在PC上通过JCROP插件,实现了上传预览并裁切,可是用手机的浏览器打开来却什么都不显示... 解决方案试试这个,看了源代码 ...

工作中常用的Linux命令

1.从其他机器拷贝文件夹格式: scp -r 文件夹名用户名@机器名:/路径范例: scp -rsearch work@zjm-testing-ps23.zjm.baidu.com:/home/ ...

[股市实战秘籍]用新闻联播情绪指标炒股

"跟着新闻联播炒股有肉吃."对于这句话,很多老股民耳熟能详.不过,央视<新闻联播>究竟跟A股盘面有多大的关联度,跟着<新闻联播>究竟如何赚钱,真的有那么灵吗 ...

珠海最大走私案走私手机65万案值逾10亿

南方日报讯(记者/刘可英通讯员/法任)以水客偷带.边境地道走私和海上运输走私等多种方式,一年之内将65万余部品牌手机以配件拆散后走私入境,涉案金额逾10.6亿元人民币,偷逃应缴税款1.45亿元.昨日, ...

发送消息的问题

问题描述我在进行发送消息时,走到发送消息后的回调这个方法时,显示消息的状态是失败的,我输出的错误信息是:无法链接到服务器,急求?? 解决方案你换成手机4g网络,看看可以不

卸载System Center Virtual Machine Manager (VMM) 2008重新安装服务器

卸载 http://www.aliyun.com/zixun/aggregation/13449.html">System Center Virtual Machine Manager ...

查询数据表里所有重复里的单条记录

测试脚本: CREATE TABLE [dbo].[TEST]( [ID] [int] IDENTITY(1,1) NOT NULL, [TID] [int] NULL, [Discription] ...

从损坏的Linux EFI安装中恢复

在过去的十多年里,Linux 发行版在安装前.安装过程中.以及安装后偶尔会失败,但我总是有办法恢复系统并继续正常工作.然而,Solus 损坏了我的笔记本. GRUB 恢复.不行,重装.还不行!Ubun ...

公开绝密利用QQ空间做淘宝客项目

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅写在文章之前: 1:此项目为本人一 ...

谷歌请求提前开发适用于谷歌眼镜的Android应用

据国外媒体报道,虽然谷歌尚未发布针对谷歌眼镜的开发者工具(Glass Development Kit,GDK),但它请求开发者们提前开始开发适用于谷歌眼镜的Android应用. 现在,谷歌眼镜开发者开 ...

北大青鸟S1阶段Java项目

问题描述需要S1阶段所有上机.作业代码,请大家提供以下解决方案解决方案二:已经在培训了就要珍惜一下,不要再浪费时间,不要再把金钱往水里扔!解决方案三:laji解决方案四:--~都去培训了这样应付 ...

c++-C++学生管理系统交不了差我就死定了，大叔大婶行行好

问题描述 C++学生管理系统交不了差我就死定了,大叔大婶行行好送人玫瑰手有余香,救人一命胜造七级浮屠,C++学生管理系统交不了差我就死定了,大叔大婶行行好解决方案 http://wenku.bai ...

阿里巴巴CTO王坚：电视不会垮掉

本文讲的是阿里巴巴CTO王坚:电视不会垮掉 [IT168专稿]"只要国家的政策许可,所有人都可以在一天时间内拥有自己的电视台".这并不是科技梦想,它因为云计算正成为现实. ▲阿里巴 ...

java swing中一个JTree如何在多个panel中显示

问题描述 java swing中一个JTree如何在多个panel中显示要实现的功能是需要在2个panel(A, B )中显示用户组的树结构, 其中有一个panel(B)中提供了对树的增删改,运行 ...

Twitter一大销售高管离职赴Stripe任要职

就在Twitter首席运营官亚当·贝恩(Adam Bain)宣布离职的几个星期之后,作为该社交网络两大销售领袖之一的理查德·阿尔弗西(Richard Alfonsi)也于本周五宣布离职. 在离职之前, ...

CSS网页布局入门教程9：用CSS设计网站导航——横向导航_基础教程

网站导航是网站中最重要的元素,是网站提供给用户的最直接最方便的访问网站内容的工具.网站导航从形式上主要由横向导航.纵向导航.下拉及多级菜单导航第三种形式. 横向导航作为门户网站的设计而言,主导航一般 ...

热搜