Elasticsearch聚合 之 Histogram 直方图聚合

Elasticsearch支持最直方图聚合,它在数字字段自动创建桶,并会扫描全部文档,把文档放入相应的桶中。这个数字字段既可以是文档中的某个字段,也可以通过脚本创建得出的。

桶的筛选规则

举个例子,有一个price字段,这个字段描述了商品的价格,现在想每隔5就创建一个桶,统计每隔区间都有多少个文档(商品)。

如果有一个商品的价格为32,那么它会被放入30的桶中,计算的公式如下:

rem = value % interval
if (rem < 0) {
    rem += interval
}
bucket_key = value - rem

通过上面的方法,就可以确定文档属于哪一个桶。

不过也有一些问题存在,由于上面的方法是针对于整型数据的,因此如果字段是浮点数,那么需要先转换成整型,再调用上面的方法计算。问题来了,正数还好,如果该值是负数,就会出现计算出错。比如,一个字段的值为-4.5,在进行转换整型时,转换成了-4。那么按照上面的计算,它就会放入-4的桶中,但是其实-4.5应该放入-6的桶中。

min_doc_count过滤

聚合的dsl如下:

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50
            }
        }
    }
}

得到的数据为:

{
    "aggregations": {
        "prices" : {
            "buckets": [
                {
                    "key": 0,
                    "doc_count": 2
                },
                {
                    "key": 50,
                    "doc_count": 4
                },
                {
                    "key": 100,
                    "doc_count": 0
                },
                {
                    "key": 150,
                    "doc_count": 3
                }
            ]
        }
    }
}

上面的数据中,100-150是没有文档的,但是却显示为0.如果不想要显示count为0的桶,可以通过min_doc_count来设置。

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "min_doc_count" : 1
            }
        }
    }
}

这样返回的数据,就不会出现为0的了。

{
    "aggregations": {
        "prices" : {
            "buckets": [
                {
                    "key": 0,
                    "doc_count": 2
                },
                {
                    "key": 50,
                    "doc_count": 4
                },
                {
                    "key": 150,
                    "doc_count": 3
                }
            ]
        }
    }
}

extend_bounds,指定最小值和最大值边界

默认情况下,ES中的histogram聚合起始都是自动的,比如price字段,如果没有商品的价钱在0-5之间,0这个桶就不会显示。如果最便宜的商品是11,那么第一个桶就是10.
可以通过设置extend_bounds强制规定最小值和最大值,但是要求必须min_doc_count不能大于0,不然即便是规定了边界,也不会返回。

另外需要注意的是,如果规定的extend_bounds.min要大于文档中的最小值,那么就会按照文档中的最小值来(extend_bounds.max也是如此)。
比如下面的这个例子,规定的extend_bounds.min和max分别是40和50,但是文档中含有比40还要小的数据,因此桶的定义仍然是按照文档中的数据来。

order排序

排序大同小异,可以按照_key的名字排序:

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "order" : { "_key" : "desc" }
            }
        }
    }
}

也可以按照文档的数目:

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "order" : { "_count" : "asc" }
            }
        }
    }
}

或者指定排序的聚合:

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "order" : { "price_stats.min" : "asc" }
            },
            "aggs" : {
                "price_stats" : { "stats" : {} }
            }
        }
    }
}

keyed设置返回的方式

正常返回的数据如上面所示,是按照数组的方式返回。如果要按照名字返回,可以设置keyed为true

{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "keyed" : true
            }
        }
    }
}

那么返回的数据就为:

{
    "aggregations": {
        "prices": {
            "buckets": {
                "0": {
                    "key": 0,
                    "doc_count": 2
                },
                "50": {
                    "key": 50,
                    "doc_count": 4
                },
                "150": {
                    "key": 150,
                    "doc_count": 3
                }
            }
        }
    }
}

缺省的值

缺省值通过MissingValue设置:

{
    "aggs" : {
        "quantity" : {
             "histogram" : {
                 "field" : "quantity",
                 "interval": 10,
                 "missing": 0
             }
         }
    }
}

本文转自博客园xingoo的博客,原文链接:Elasticsearch聚合 之 Histogram 直方图聚合,如需转载请自行联系原博主。

时间: 2024-09-24 18:35:50

Elasticsearch聚合 之 Histogram 直方图聚合的相关文章

select-ORACLE SQL 无聚合函数 和 有聚合函数 左外连 报不是 GROUP BY 表达式的错误

问题描述 ORACLE SQL 无聚合函数 和 有聚合函数 左外连 报不是 GROUP BY 表达式的错误 SELECT*FROM ( SELECT t11.tokuisaki_cd AS tokuisakiCd-- A.得意先 '1' AS jizenShikyuuHandan -- '1'(事前) AS 事前支給判断 t11.jizen_shinsei_taishou_fg AS jizenShinseiTaishouFg -- A.事前申請対象フラグ t11.jigo_shinsei_ta

Rafy 中的 Linq 查询支持(根据聚合子条件查询聚合父)

为了提高开发者的易用性,Rafy 领域实体框架在很早开始就已经支持使用 Linq 语法来查询实体了.但是只支持了一些简单的.常用的条件查询,支持的力度很有限.特别是遇到对聚合对象的查询时,就不能再使用 Linq,而只能通过构造底层查询树的接口来完成了.由于开发者的聚合查询的需求越来越多,所以本周我们将这部分进行了增强. 接下来,本文将说明 Rafy 框架原来支持的 Linq 语法,以及最新加入的聚合查询支持及用法.   使用 Linq 查询的代码示例 public WarehouseList G

聚合数据-关于在聚合平台申请的key

问题描述 关于在聚合平台申请的key 我的问题是这样的,我现在在聚合平台申请了一个 key,那么当我在访问接口的时候,发送key值 ,怎么保证key的安全呢? 解决方案 聚合平台的请求接口中是直接把key作为参数的,并没有进行加密处理没,所以key值得安全性在请求时只能写申请得到的key.

Elasticsearch嵌套聚合

 Elasticserch在新版本中支持聚合操作,而聚合操作也可以嵌套使用,方法如下: curl -XGET 10.4.44.19:9200/test/test/_search?pretty -d ' { "aggs":{ "color_type_max":{ "terms":{ "field": "color" }, "aggs":{ "max_age": { &q

Elasticsearch聚合初探——metric篇

Elasticsearch是一款提供检索以及相关度排序的开源框架,同时,也支持对存储的文档进行复杂的统计--聚合. 前言 ES中的聚合被分为两大类:Metric度量和bucket桶(原谅我英语差,找不到合适的词语.....就用单词来说吧!).说的通俗点,metric很像SQL中的avg.max.min等方法,而bucket就有点类似group by了. 本篇就简单的介绍一下metric聚合的用法. metric的聚合按照值的返回类型可以分为两种:单值聚合 和 多值聚合. 单值聚合 Sum 求和

Elasticsearch聚合 之 Terms

之前总结过metric聚合的内容,本篇来说一下bucket聚合的知识.Bucket可以理解为一个桶,他会遍历文档中的内容,凡是符合要求的就放入按照要求创建的桶中. 本篇着重讲解的terms聚合,它是按照某个字段中的值来分类: 比如性别有男.女,就会创建两个桶,分别存放男女的信息.默认会搜集doc_count的信息,即记录有多少男生,有多少女生,然后返回给客户端,这样就完成了一个terms得统计. Terms聚合 { "aggs" : { "genders" : {

聚合(根)、实体、值对象精炼思考总结

1.      聚合根.实体.值对象的区别? 从标识的角度: 聚合根具有全局的唯一标识,而实体只有在聚合内部有唯一的本地标识,值对象没有唯一标识,不存在这个值对象或那个值对象的说法: 从是否只读的角度: 聚合根除了唯一标识外,其他所有状态信息都理论上可变:实体是可变的:值对象是只读的: 从生命周期的角度: 聚合根有独立的生命周期,实体的生命周期从属于其所属的聚合,实体完全由其所属的聚合根负责管理维护:值对象无生命周期可言,因为只是一个值: 2.      聚合根.实体.值对象对象之间如何建立关联

用ASP.NET建立一个在线RSS新闻聚合器

asp.net|rss|在线 概要 本文讲解了如何使用 XML Web 控件获取远程XML数据并在 ASP.NET 页面显示这些XML数据,以及使用Repeater控件发布数据库中的XML数据.在过去的几年间,随着 异构平台间共享数据的需求不断增长,XML的使用也呈爆炸性增长.意识到这种趋势,微软在整个.NET框架中对 XML 提供了健壮的支持.这意味着,对于 ASP.NET 开发者来说,在Web页面 中显示和处理 XML 数据从来没有这么容易过.本文将通过生成一个 RSS2.0 聚合引擎和在线

SEOWHY创始人夫维论“整合和聚合”

2012年9月份,夫唯老师在深圳的麒麟酒店举行了今天的会员大聚会,这次的主题叫:"新环境下的思考:整合与聚合,从优秀到卓越 ".大家都知道,自从360出来之后,百度和Google都采取了一定的措施和手段,尤其是在6月和7月份最厉害,大部分是以K站为主.另一个主要的事情是,搜索引擎进行了一定的升级,以前的时候,第一波搜索引擎是通过网页推荐来进行排序,也就是以网页的锚文本链接等来进行排序,通过网页来进行培训;改变之后,第二个阶段,搜索引擎会以"社交"来排序,即社交推荐,