ComputeColStats UDF中 近似算法的介绍

一,前面的话

表和列的统计信息对CBO的结果有着极大地影响,能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的,更准确的统计信息往往需要更多的计算,我们能做的是在高效和准确之间找到更好的平衡。接下来的内容是关于目前在ComputeColStats中用的一些近似算法。

二,收集的内容

目前针对列主要会收集以下统计信息:
cntRows : 列中总数据个数,包括nulll值
avgColLen :列的平均长度
maxColLEN :列的最大长度
minValue :列的最小值
maxValue :列的最大值
numNulls :列中null值个数
numFalses :如果boolean型,false值的个数
numTrues :如果boolean型,true值的个数
countDistinct :不同值的个数
topK :topk值的个数,数据倾斜的标志
一般说来除了countDistinct 和topK 以外的统计信息基本上消耗资源并不大(minValue和maxValue存在大量比较,也会消耗不少资源),问题主要集中在countDistinct 和topK上。下面要描述的近似算法也是主要针对这两个点。

三,countDistinct 实现

算法:Flajolet-Martin
论文见:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.81.3869&rep=rep1&type=pdf
简介
对于n个object,如果Hash结果中,结尾(或开头)连续0的长度的最大值是m,那么,可以估计唯一的object的数据量是2^m个。
假设有一个非常好的hash函数,能够将object哈希成一个二进制数0101……,并且非常均匀的打散到二进制空间。如果有8个唯一的object,将它们全部Hash之后,结果按照概率应该有4个object的Hash值以0结尾,这4个Hash值又应该有2个结尾是00,这2个中又有1个结尾是000。
采用多个独立的hash函数,每个hash函数分别计算最长0比特序列,然后求平均值,减少误差。
hash函数的个数基本上就决定了Flajolet-Martin算法的效率和准确度,后面有针对不同hash函数个数的测试结果。

四,topK实现

算法:Space-Saving
伪代码:

五,基本性能测试


结论:
1,Base Stats对性能也是存在影响的,主要是minValue和maxValue的计算,尤其是collen较长的情况下
2,一般说来distinct相对topK会更慢些,除非在collen较长的时候,topK也是基于比较来的
3,随着列个数的增加,收集stats消耗的时间也线性的增加
4,distinct的计算基于hash,而topK的计算基于比较,所以前者对collen并不敏感

六,不同hash函数个数执行效率的测试


结论:
基本上随着hash函数个数的增加线性的增长

七,不同hash函数个数准确性的测试


结论:
hash函数个数增加到32个后,准确率基本能满足需求

八,不同hash函数个数的测试总结


结论:选择32个hash函数计算distinct,平衡执行效率及准确性

九,sample算法的选择

1,必要性:
基于前面对执行效率的测试,为了避免对任务产生过大的影响,Sample是一定要做的
2,Sample算法的要求:
效率,随机
3,Sample的选择:
采用buildin的sample函数实现
前提是假设数据分布是随机的
4,Sample的影响:
对某些stats基本没影响,比如说avgColLen,maxColLen,minValue,maxValue
对某些stats有些影响,比如说cntRows, numNulls,numFalses,numTrues,topK
对countDistinct影响比较大,并且countDistinct也更加重要,需要特别注意
5,Sample后countDistinct的处理:
根据Sample的countDistinct预测完整数据的countDistinct,采样,拟合

基本思路如下图:

希望通过对sample内的数据进行采样,利用这些采样点描绘全部数据的形态,达到基本准确预测全部数据distinct的结果。这是个美好的愿望,在sample的数据相对较少的时候,总有些情况下sample下的形态跟完整数据的形态存在较大的差异,此时的误差会比较大。

十,不同sample比例执行效率的测试


采样比例在1/100后执行时间差距不大,此时最大的消耗在数据读取上,而不针对distinct的计算。

十一,不同sample比例准确性的测试


针对表meta.m_fuxi_instance表中的列project_name,odps_inst_id做了些测试,结果如上。看起来1/50的结果还是可以接受的。
多说一句,对于distinct来说,并不需要完全的正确,10倍以内的差距目前来说是可以接受的,这也是我们可以通过采样来提高效率的前提。

十二,按sample比例为1/25为例的计算结果

执行时间和准确率基本都可以满足现在需求

十三,后续的工作

对于准确率的提升是后续需要做的事情之一,这关键还是如何在sample里面找带更有代表性的点来预测全部数据的形态。但,要作好心理准备,对于某些场景来说,可能就找不到这样的方法,需要接受一定范围的误差。

时间: 2024-09-17 04:44:52

ComputeColStats UDF中 近似算法的介绍的相关文章

ComputeColStats UDF中 近似算法的介绍(续)

在前一篇文章的最后提到,对于准确率的提升是后续需要做的事情之一.接下来看看对于提升准确率,还有哪些事情可以做. 一,回顾 首先回顾下前一篇文章最后得到的结果,如下: 执行时间先忽略,只看准确率.对于上面8个字段,有些在sample为25(采样比例1/25)的情况下还是相当准确的,比如odps_task_type,start_time:而有些则存在一定差距,比如project_name,fuxi_ceil_mem等:还有些存在比较大的差距,比如odps_inst_id,fuxi_avg_cpu.同

在HDInsight中的Hadoop介绍

在HDInsight中的Hadoop介绍 概览 Azure的HDInsight是,部署和规定的ApacheHadoop集群在云中,提供用于管理,分析和大数据报告软件框架中的服务. 大数据 数据被描述为"大数据",以表明它被收集在以往升级卷,以越来越高的速度,并为一个扩大各种非结构化格式和可变语义语境.大数据的收集并不对企业自身提供的价值. 对于大数据在可操作智能或洞察力的形式提供价值,不仅要正确的问题问及相关的问题,数据收集,数据必须可以访问,清洗,分析,然后在一个有用的方式呈现,常与

MongoDB中的bson介绍和使用实例

  这篇文章主要介绍了MongoDB中的bson介绍和使用实例,本文讲解了什么是bson.bson在MongoDB中的使用.几个BSON的例子等内容,需要的朋友可以参考下 一.什么是bson BSON是一种类json的一种二进制形式的存储格式,简称Binary JSON,它和JSON一样,支持内嵌的文档对象和数组对象,但是BSON有JSON没有的一些数据类型,如Date和BinData类型. BSON可以做为网络数据交换的一种存储形式,这个有点类似于Google的Protocol Buffer,

Excel中CONCATENATE函数介绍

在使用excel时,我们常常会使用一些函数,本文中为大家介绍CONCATENATE函数的使用方法. 语法 CONCATENATE (text1,text2,...) Text1, text2, ... 为 1 到 30 个将要合并成单个文本项的文本项.这些文本项可以为文本字符串.数字或对单个单元格的引用. 说明 也可以用 &(和号)运算符代替函数 CONCATENATE 实现文本项的合并. 用&运算符可以代替CONCATENATE函数实现文本项的合并.如公式="张"&a

JavaScript中的闭包介绍

 这篇文章主要介绍了JavaScript中的闭包介绍,本文讲解了Javacript 闭包.Javscript 闭包与this.Javscript 闭包与读写变量等内容,需要的朋友可以参考下     所谓的闭包应该是指: 内部函数读取当前函数以外的变量,即创建时所处的上下文环境. 代码如下: function hello(){ var char = "hello,world"; function print(){ console.log(char); }; return print();

JavaScript中逗号运算符介绍及使用示例

 这篇文章主要介绍了JavaScript中逗号运算符介绍及使用示例,本文讲解了逗号运算符的定义.使用例子及实际使用的一些技巧,需要的朋友可以参考下     有一道js面试题,题目是这样的:下列代码的执行结果是什么,为什么? 代码如下: var i, j, k; for (i=0, j=0; i<10, j<6; i++, j++) { k = i+j; } document.write(k);   答案是显示10,这道题主要考察JavaScript的逗号运算符. 下面是MDN对逗号运算符的定义

Python中的闭包介绍及实例

Python中的闭包介绍 闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数.这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外.所以,闭包是由函数和与其相关的引用环境组合而成的实体. 在开始介绍闭包之前先看看Python中的namespace. Python中的namespace Python中通过提供 namespace 来实现重名函数/方法.变量等信息的识别,其一共有三种 namespace,分别为:     loca

03_MyBatis基本查询,mapper文件的定义,测试代码的编写,resultMap配置返回值,sql片段配置,select标签标签中的内容介绍,配置使用二级缓存,使用别名的数据类型,条件查询ma

 1 PersonTestMapper.xml中的内容如下: <?xmlversion="1.0"encoding="UTF-8"?> <!DOCTYPEmapper PUBLIC"-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd"> <!--  namespace:命名空间,用来唯

SQL Server-聚焦在视图和UDF中使用SCHEMABINDING(二十六)

前言 上一节我们讨论了视图中的一些限制以及建议等,这节我们讲讲关于在UDF和视图中使用SCHEMABINDING的问题,简短的内容,深入的理解,Always to review the basics. SCHEMABINDING 在上节中我们讲到在视图创建索引时必须指定SCHEMABINDING,所以我们有必要先去了解下这个知识点再继续往下讲解.SCHEMABINDING到底是什么呢?在视图和UDF中有这个选项,如果在视图和UDF函数中指定了这个选项,那么说明会将视图和UDF严格绑定到数据库对象