Python之数据聚合与分组运算

Python之数据聚合与分组运算

1. 关系型数据库方便对数据进行连接、过滤、转换和聚合。

2. Hadley Wickham创建了用于表示分组运算术语“split-apply-combine”(拆分-应用-合并)。

3. GroupBy的size方法,它可以返回一个含有分组大小的Series。

4. gorupby对分组进行迭代,可以产生一组二元元组(由分组名和数据块组成)。

5. 选取一个或以组列

对于由GroupBy对象,如果用一个(单个字符串)或一组(字符串数组)列名对其进行索引,就能实现选取部分列进行聚合的目的。

6. 通过字典或Series进行分组。

7. 根据索引级别分组:层次化索引数据集最方便的地方就在于它能够根据索引级别进行聚合。要实现该目的,通过level关键字传入级别编码或者名称即可。

8. 数据聚合,对于聚合是指能够从数组产生标量值的数据转换过程。

9. 聚合只不过是分组运算的其中一种,它是数据转换的特例。

10 apply:一般性的“拆分-应用-合并”

最一般化的GroupBy方法是apply,它会将待处理的对象拆分成多个片段,然后对个片段调用传入的函数,最后尝试将各片段组合到一起。

11 分位数和桶分析

pandas有一些可以根据指定面元或样本分位数将数据拆分成多块的工具(比如cut和qcut)。将这些函数跟GroupBy结合起来,就能轻松地实现对数据集的桶(bucket)或分位数(quantile)分析。

12 透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。

13 交叉表(cross-tabulation,简称crosstab)是一种用于计算分组频率的特殊透视表。

时间: 2024-10-29 08:55:10

Python之数据聚合与分组运算的相关文章

数据蒋堂 | 还原分组运算的本意

分组是SQL中常见的运算,但未必所有人都能深刻地理解它. 分组运算的实质是将一个集合按照某种规则拆分成若干个子集,也就是说,返回值应当是一个由集合构成的集合,但人们一般不太关心构成这个集合的成员集合(我们称为分组子集),而是对这些子集的聚合值更感兴趣,因此,分组运算常常伴随着对子集的进一步汇总计算. SQL就是这么做的,在写有GROUP BY子句时,SELECT部分除了分组字段外,就只能写入聚合运算表达式了.当然还有个原因是SQL没有显式的集合数据类型,无法返回集合的集合这类数据,也只能强迫实施

数据蒋堂 | 有序分组

我们知道,SQL延用了数学上的无序集合概念,所以SQL的分组并不关注过待分组集合中成员的次序.我们在前面讨论过的等值分组和非等值分组,也都没有关注过这个问题,分组规则都是建立在本身的成员取值本身上.但如果我们要拓展SQL,以有序集合为考虑对象时,那就必须考虑成员次序对分组的影响了,而且,现实业务中有大量的有序分组应用场景. 一个简单的例子:将一个班的学生平均分成三份(假定人数能被3整除).按我们在前面所说的分组定义,这也可以看成是一种分组,但这个运算在SQL中却很难写出来,因为分组依据和成员取值

H264的RTP负载打包的数据包格式,分组,分片

H264的RTP负载打包的数据包格式,分组,分片   1.    RTP数据包格式 RTP报文头格式(见RFC3550 Page12):     0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 12 3 4 5 6 7 8 9 0 1   +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+    |V=2|P|X| CC   |M|     PT     |       seque

《Python数据分析与挖掘实战》一3.3 Python主要数据探索函数

3.3 Python主要数据探索函数 Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化).其中,Pandas提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计作图函数,而作图函数依赖于Matplotlib,所以往往又会跟Matplotlib结合在一起使用.本节对Pandas中主要的统计特征函数与统计作图函数进行介绍,并举例以方便理解. 3.3.1 基本统计特征函数 统计特征函数用于计算数据的均值.方差.标准差.分位数.相关

Python之数据规整化:清理、转换、合并、重塑

Python之数据规整化:清理.转换.合并.重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame中的行连接起来. pandas.concat可以沿着一条轴将多个对象堆叠到一起. 实例方法combine_first可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值. 2. 数据风格的DataFrame合并操作 2.1 数据集的合并(merge)或连接(jion)运算时通过一个或多个键将行链接起来的.如果没有指定,merge就会将重叠列的列名当做键

Mongodb聚合函数count、distinct、group如何实现数据聚合操作_MongoDB

 上篇文章给大家介绍了Mongodb中MapReduce实现数据聚合方法详解,我们提到过Mongodb中进行数据聚合操作的一种方式--MapReduce,但是在大多数日常使用过程中,我们并不需要使用MapReduce来进行操作.在这边文章中,我们就简单说说用自带的聚合函数进行数据聚合操作的实现. MongoDB除了基本的查询功能之外,还提供了强大的聚合功能.Mongodb中自带的基本聚合函数有三种:count.distinct和group.下面我们分别来讲述一下这三个基本聚合函数. (1)cou

你真的会玩SQL吗?你所不知道的 数据聚合

  你真的会玩SQL吗?系列目录   你真的会玩SQL吗?之逻辑查询处理阶段   你真的会玩SQL吗?和平大使 内连接.外连接   你真的会玩SQL吗?三范式.数据完整性   你真的会玩SQL吗?查询指定节点及其所有父节点的方法   你真的会玩SQL吗?让人晕头转向的三值逻辑   你真的会玩SQL吗?EXISTS和IN之间的区别   你真的会玩SQL吗?无处不在的子查询   你真的会玩SQL吗?Case也疯狂   你真的会玩SQL吗?表表达式,排名函数   你真的会玩SQL吗?简单的 数据修改

mysql-求一个Mysql语句 查询出当前周的数据按照天分组

问题描述 求一个Mysql语句 查询出当前周的数据按照天分组 SELECT DATE_FORMAT(uploadTime_beg%Y-%m-%d"") as time SUM(field01) as sumStatus1 SUM(field02) as sumStatus2 SUM(field03) as sumStatus3 SUM(field04) as sumStatus4 SUM(field05) as sumStatus5 FROM health_realdata WHERE

python 可变数据和不可变数据解析

python 的数据类型和C不一样,有一种类型:可变类型 (mutable)和不可变类型(immutable) Python中所有变量都是值的引用,也就说变量通过绑定的方式指向其值. 而这里说的不可变指的是值的不可变. 对于不可变类型的变量,如果要更改变量,则会创建一个新值,把变量绑定到新值上,而旧值如果没有被引用就等待垃圾回收.不可变的类型还有一个特性,就是可以计算其hash值,这样才能进一步作为字典的key.可变类型数据对对象操作的时候,不需要再在其他地方申请内存,只需要在此对象后面连续申请