Python之数据规整化：清理、转换、合并、重塑

1. 合并数据集

pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。
pandas.concat可以沿着一条轴将多个对象堆叠到一起。
实例方法combine_first可以将重复数据编接在一起，用一个对象中的值填充另一个对象中的缺失值。

2. 数据风格的DataFrame合并操作

2.1 数据集的合并（merge）或连接（jion）运算时通过一个或多个键将行链接起来的。如果没有指定，merge就会将重叠列的列名当做键，最好显示指定一下。
pd.merge(df1,df2,on='key')
2.2 默认情况下，merge做的是"inner"连接，结果中的键是交集。其他方式有“left”、“right”、“outer”。外连接求取的是键的并集，组合了左连接和右连接。
2.3 都对的的连接是行的笛卡尔积。
2.4 merge的suffixes选项，用于指定附加到左右两个DataFrame对象的重叠列名上的字符串。

3. 索引上的合并

DataFrame有merge和join索引合并。

4. 重塑和轴向旋转

有许多用于重新排列表格型数据的基础运算。这些函数也称作重塑（reshape）或轴向旋转（pivot）运算。
4.1 重塑层次化索引
层次化索引为DataFrame数据的重排任务提供了良好的一致性方式。主要两种功能：
    stack：将数据的列“旋转”为行。
    unstack：将数据的行“旋转”为列。

5. 数据转换

5.1 利用函数或映射进行数据转换
Series的map方法可以接受一个函数或含有映射关系的字典型对象。
5.2 替换值
replace可以由一个带替换值组成的列表以及一个替换值
data.replace([-999,-1000],np.nan)
5.3 重命名轴索引
轴标签也可通函数或映射进行转换，从而得到一个新对象轴还可以被就地修改，而无需新建一个数据结构。
5.4 离散化和面元划分
为了便于分析，连续数据常常被分散化或拆分成“面元”（bin）。
pandas的cut函数
5.5 检测和过滤异常值
异常值的过滤或变换运算很大程度上其实就是数组的运算。

6. 字符串操作

6.1 字符串对象方法
split以逗号分割的字符串可以拆分成数段。
字符串“：：”的jion方法以冒号分隔符的形式连接起来。
6.2 正则表达式
描述一个或多个空白符的regex是\s+
创建可重用的regex对象：
regex = re.complie('\s+')
regex.split(text)
6.3 pandas中矢量化的字符串函数
实现矢量化的元素获取操作：要么使用str.get，要么使用str属性上使用索引。

时间： 2024-07-29 17:24:47

Python之数据规整化：清理、转换、合并、重塑的相关文章

数据架构简史：转换中的范式

据架构是一系列决定收集哪些数据,如何在数据库系统中使用.处理和存储数据的规则.策略以及模型.例如,数据集成是依赖于数据架构用于集成过程中的指令.如果没有从编程范式转换到数据架构范式,现代计算机将会变得更加笨拙迟钝. 对于早期的计算机,创建过分简单化的程序是为了处理特定类型的计算机问题,甚至没有考虑过数据集成的概念,每个程序之间都是单独分开的.二十世纪四十年代至七十年代,程序处理是最主要的问题,有关建立数据架构的问题根本考虑得少之又少,甚至不在考虑的范围之内.程序员致力于让计算机通过执行特定的操作

Python之数据聚合与分组运算

Python之数据聚合与分组运算 1. 关系型数据库方便对数据进行连接.过滤.转换和聚合. 2. Hadley Wickham创建了用于表示分组运算术语"split-apply-combine"(拆分-应用-合并). 3. GroupBy的size方法,它可以返回一个含有分组大小的Series. 4. gorupby对分组进行迭代,可以产生一组二元元组(由分组名和数据块组成). 5. 选取一个或以组列对于由GroupBy对象,如果用一个(单个字符串)或一组(字符串数组)列名对其进行索

Python的数据序列化「Json & Pickle」

在介绍Python的数据序列化模块「Json & Pickle」之前,我们先来看看为什么需要数据序列化,什么是数据序列化. 为什么需要数据序列化,我认为有如下两种原因: 一个原因是将对象(一切皆对象)的状态保持在存储媒介(硬盘.网盘......)中,以便可以在以后重新创建精确的副本,相当于镜像的概念,比如我们平时利用VMware虚拟机中的挂起功能,这个挂起功能就是利用数据的序列化,把虚拟机当前的状态序列化保存在本地磁盘的文件中,然后恢复的时候只需反序列化,把状态恢复即可. 另一个原因是通过值将对

大神手把手教你：(Python)序列数据的One Hot编码

更多深度文章,请关注:https://yq.aliyun.com/cloud 机器学习算法无法直接用于数据分类.数据分类必须转换为数字才能进一步进行. 在本教程中,你将发现如何将输入或输出的序列数据转换为一种热编码,以便于你在Python中深度学习的序列分类问题中使用. 看完本教程后,你将会了解: · 1.什么是整数编码和One-Hot编码,以及为什么它们在机器学习中是必需的. · 2.如何在Python中手工计算一个整数编码和One-Hot编码. · 3.如何使用scikit-le

python socket 数据发送前后不一致，会自动增加一个空格。

问题描述 python socket 数据发送前后不一致,会自动增加一个空格. 我用py写了个server,用py的自带库tk写了个client,运行正常. 后面我又用QT4库写了个client,问题出来了: 我在client上有一个单行输入框,点击send按扭后,会获取单行输入框的text,并把这个内容发送给服务端,此时服务端接收消息,把这个消息再返回客户端. 问题出来了,如果我单行输入框中的内容是abc,也就是长度为3的字符串,服务器接收后却是a b c ,也就是在每个字符后面都自动加了一个

C# linq 两个表，列名一样，但数据无关联，想合并为一个表

问题描述 C# linq 两个表,列名一样,但数据无关联,想合并为一个表我有两个表 ,里面的列名结构都是一样的,但是id等数据都是不一样,我想将这两个表合并为一个表,在页面上显示.我是将这两个表都放进各自的泛型集合里,但是就变成两个类型了,如何将这两个表合并成一个表呢?或者用linq的话怎么写呢,这两表之间没什么关联,单纯只是想合并成一个表而已?求教~~~ (只是想在查询时,将这两个表合并为一个表进行查询,并不想更改这两个表的数据) 解决方案左边或者右边select转换成另一个类型,然后co

python 把数据 json格式输出的实例代码_python

有个要求需要在python的标准输出时候显示json格式数据,如果缩进显示查看数据效果会很好,这里使用json的包会有很多操作 import json date = {u'versions': [{u'status': u'CURRENT', u'id': u'v2.3', u'links': [{u'href': u'http://controller:9292/v2/', u'rel': u'self'}]}, {u'status': u'SUPPORTED', u'id': u'v2.2'

[大数据之Spark]——Transformations转换入门经典实例

Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用:另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系. 本篇就着重描述下Spark提供的Transformations方法. 依赖关系宽依赖和窄依赖窄依赖(narrow dependencies) 窄依赖是指父RDD仅仅被一个子RDD所使用,子RDD的每个分区依赖于常数个父分区(O(1),与数据规模无关). 输入输出一对一的算子,且结果RDD的分区结构不变.主要是ma

python 可变数据和不可变数据解析

python 的数据类型和C不一样,有一种类型:可变类型 (mutable)和不可变类型(immutable) Python中所有变量都是值的引用,也就说变量通过绑定的方式指向其值. 而这里说的不可变指的是值的不可变. 对于不可变类型的变量,如果要更改变量,则会创建一个新值,把变量绑定到新值上,而旧值如果没有被引用就等待垃圾回收.不可变的类型还有一个特性,就是可以计算其hash值,这样才能进一步作为字典的key.可变类型数据对对象操作的时候,不需要再在其他地方申请内存,只需要在此对象后面连续申请

猜你喜欢

用javascript改变和控制显示的图片大小

javascript|控制|显示用javascript改变和控制显示的图片大小 <IMG src="forumnew.gif" style="border:1px ...

差之毫厘谬以千里 SEO诊断助你披荆斩棘

互联网市场有多火爆?电子商务的走红便可见一斑.在企业销售盈利中,现实销售模式已远不能满足发展,而互联网恰逢崛起,中国电子商务研究中心<2010年中国电子商务市场数据监测报告>显示,中国20 ...

C语言基础教程（四）指针、结构、联合和枚举(17)

枚举(enum) 枚举是一个被命名的整型常数的集合,枚举在日常生活中很常见.例如表示星期的SUNDAY,MONDAY,TUESDAY,WEDNESDAY,THURSDAY,FRIDAY,SATURDA ...

基于私钥加密公钥解密的RSA算法C#实现

RSA算法是第一个能同时用于加密和数字签名的算法,也易于理解和操作. RSA是被研究得最广泛的公钥算法,从提出到现在已近二十年,经历了各种攻击的考验,逐渐为人们接受,普遍认为是目前最优秀的公钥方案之 ...

PS经典美容教程让你完美无缺

教程非常详细的讲解人物高级美容的方法,在细节处理方面作者都接近用鼠绘,方法也更鼠绘差不多,不得不佩服作者的功底. 原图最终效果 1.打开原图通过色彩调整工具调整至右图效果.这里用了Neat ima ...

怎么在WPS2013中进行图片裁切

怎么在WPS2013中进行图片裁切 WPS是一款非常实用的办公软件,那么怎么在WPS2013中进行图片裁切?一起来看看吧! 在WPS2013中裁切插入的图像的方法: 打开WPS20 ...

在LinuxVPS下架设Minecraft服务器

在LinuxVPS下架设Minecraft服务器首先,下载最新JAVA:http://javadl.sun.com/webapps/download/AutoDL?BundleId=76851 网盘 ...

Photoshop给树林人物加上淡中性暖色调

效果图是比较低饱和度的暖色图片.调色的时候先把主色转为暖色,暗部及中间调部分转为较为中性的颜色.然后把整体调淡即可. 原图 <点小图查看大图> 最终效果 1.打开素材图片,创建可选颜色调整 ...

Win 7系统口令登录过程调试方法

首先介绍Windows 7系统基本原理 Windows7 以后 Winlogon 进程是动态的,有用户登录就会创建一个 Winlogon 进程,因此系统中完全可能存在多个登录进程,注销后 Winlo ...

JS通过ajax动态读取xml文件内容的方法

这篇文章主要介绍了JS通过ajax动态读取xml文件内容的方法,实例分析了Ajax操作XML文件的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了JS通过ajax动态读取xm ...

Linux如何迅速查找文件

如何让迅速查找文件? Linux这个词本身只表示Linux内核,但实际上人们已经习惯了用Linux来形容整个基于Linux内核,并且使用GNU 工程各种工具和数据库的操作系统.Linux的基本思想 ...

windowsxp系统如何打开3GA文件

windowsxp系统如何打开3GA文件 1.手机录音文件上传到电脑,直接打开显示如下,不能播放; 2.安装格式工厂软件,打开软件; 3.打开格式工厂后选择-音频选项,然后选择 ...

win7电脑如何打开口令操作功能？

口令操作,也许大家只有在手机上才见识过,特别是苹果手机的口令操作功能,可以说是十分的强大了,让大家享受到智能带来的效果,但是在电脑上也能这样?恐怕是大家想都不敢想的,但是其实,在win7 64位旗 ...

win7/win8免费升级win10正式版提示关掉教程

win7/win8免费升级win10正式版提示怎么去掉?微软向win7/win8/win8.1系统推送免费升级win10系统通知消息,怎么去掉呢?下文小乐哥给大家带来win7/win8免费升级wi ...

小技巧把U盘当内存使用

1. 鉴别请参阅您的 U 盘说明书或者外包装,一般都会标明是否为" 高速U 盘"或者是否"支持 ReadyBoost 技术";此外还要保证 U 盘至少还有 ...

理解C语言——从小菜到大神的晋级之路（2）——开发环境的选择和HelloWorld程序

视频观看:点击这里一.常用系统及IDE简介常言道,工欲善其事必先利其器.除了少数奇葩之外,大部分人应不会去使用记事本或者Word文档去编程吧?几乎所有编程语言都需要一个高效易用的开发 ...

济南档案转移

刚毕业的时候,在一家可以接受档案的公司工作,最近离职,要转移档案啊,本来想着是转移到新公司在的区里,但经过联系发现,区里的人才服务中心,只接受有济南户口的,木有办法只好转移档案到省人才服 ...

控制台窗口-小弟请教关于程序窗口的问题

问题描述小弟请教关于程序窗口的问题请教大神控制台窗口和windows窗口什么不同,为什么不同的IDE会使用不同的窗口,像codeblocks使用windows的,VS2013使用控制台的,希望大神 ...

“人生三本书”正解安防应该如何思考？

每年高考,语文科目的作文部分都会成为最为关注的热点话题.Why?Because除了作文还可以谈一下,每年的数学和物理,小编都看不懂.今年,浙江的考题"三本大书"公布后,毫无疑问引起 ...

Git 系列（六）：如何搭建你自己的 Git 服务器

现在我们将要学习如何搭建 git 服务器,如何编写自定义的 Git 钩子来在特定的事件触发相应的动作(例如通知),或者是发布你的代码到一个站点. 直到现在,我们主要讨论的还是以一个使用者的身份与 Gi ...

零宕机布署！让你的数据库轻松实现向后兼容变更

本文将深入探讨如何解决数据库兼容性以及布署过程相关的一些问题.如果你没有做一些准备工作就去尝试本文介绍的布署方法,我将无法预知你的应用会发生什么.接下来,我们将透过应用程序生命周期的每一步骤介绍零宕机 ...

php-file_put_contents()生成的一个log文件如何限制该文件的大小使其最多能有1M

问题描述 file_put_contents()生成的一个log文件如何限制该文件的大小使其最多能有1M php file_put_contents()生成的一个log文件,如何限制该文件的大小使其最 ...

原道N12豪华版亚马逊特卖

原道N12豪华版是一款简约时尚,并升级了最新安卓4.0系统的平板产品.其配置一块7英寸纯平五点电容触控屏,并搭载1GHz主频A8处理器,512MB DDR3缓存加独立VivanteGC800图形处理器 ...

记一次C#代码审查

你想在这里实现什么? 有什么要求? 这是启动每个代码审查过程的最佳方式.一要求做代码审查的人已经知道这些问题的答案. 此函数返回一个 GitHub 收藏的用户列表. 在 GitHub 上,有一个追踪用 ...

初折腾Oracle问题小记

这里简单记录一下了: 记录一:N久前装过Oracle 10,前两天重新登陆一下,发现登陆不了,老是报host不存在之类的错误,导致数据库重装了又删,删除了又建,如此循环. 解决: 最后发现是不久N前修 ...

批处理时间戳问题求教

问题描述大家好今天我要把WAS的日志进行备份写批处理文件的时候遇到了一个问题其他板块都没人啊...只能求教各位了问题如下--------我的预期目标是现在时间为2011年2月17日09:47:44生 ...

同样月入近万孰难孰易

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅毅然决然奋不顾身进入茫茫网络涉足中 ...

Android五大布局与实际应用详解_Android

Android总体有五大布局: 线性布局(LiearLayout): 屏幕垂直或水平方向布局. 帧布局(FrameLayout):控件从屏幕左上角开始布局. 相对布局(RelativeLayout): ...

在apache 下建立高可扩展的web邮件系统实例

1.2 要求该文档提到了三种服务器:web服务器,imap服务器和LDAP服务器.这些服务器可以位于独立的主机上,或若干个独立的机器上(例如:23个web服务器,5个LDAP服务器和10个IMAP ...

网站快照滞后现象解决办法

在最近几天的优化中发现自己的网站http://www.111cn.net出现快照滞后11天的,下面来看看我的分析与解决办法吧: 从上图我们可以看出,网站每天收录正常,不过网站快照滞后了整整11天, ...

热搜