Python之pandas数据加载、存储

Python之pandas数据加载、存储

0. 输入与输出大致可分为三类:

0.1 读取文本文件和其他更好效的磁盘存储格式
2.2 使用数据库中的数据
0.3 利用Web API操作网络资源

1. 读取文本文件和其他更好效的磁盘存储格式

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
1.1 pandas中的解析函数:

    read_csv        从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
    read_table      从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
    read_clipboard  读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用

    其中,read_csv、read_table使用较多。

1.2 逐块读取文本文件
    读取几行nrows
    逐块读取chunksize(行数)
1.3 将数据写到文本格式
    利用DataFrame的to_csv

2. 使用数据库中的数据

2.1 使用关系型数据库中的数据,可以使用Python SQL驱动器(PyODBC、psycopg2、MySQLdb、pymssql等)
2.2 使用非关系型数据库中的数据,如MongoDB,用其官方驱动器pymongo通过默认端口进行连接。

3. 利用Web API操作网络资源

3.1 应用lxml.html处理HTML
    步骤:
    1)利用urllib2将URL打开,然后由lxml解析得到数据流
    2)得到URL和链接文本
        使用文档根节点的findall方法以及一个XPath,以及个对象的get方法(针对URL)和text_content方法(针对显示文本)
    3)通过反复试验从文档中找到正确表格
    4)将所有步骤结合起来,将数据转换为一个DataFrame
3.2 应用lxml.objectify处理XML
    1)使用lxml.objetify解析文件
    2)通过getroot得到XML文件的根节点
3.3 使用网站通过JSOM及其他格式提供数据的公共的API
    使用requests包访问这些API
时间: 2024-08-18 08:43:24

Python之pandas数据加载、存储的相关文章

python数据分析笔记——数据加载与整理

  数据加载 导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件.   9.10.11行三种方式均可以导入文本格式的数据. 特殊说明:第9行使用的条件是运行文件.py需要与目标文件CSV在一个文件夹中的时候可以只写文件名.第10和11行中文件名ex1.CSV前面的部分均为文件的路径. 方法二:使用pd.read.table(),需要指定是什么样分隔符的文本文件.用sep=""来指定. 2.当文件没有标题行时 可以让panda

提高数据加载速度的常用方法

数据加载是数据库应用开发和测试中经常遇到的需求场景.如果要加载的数据量很大,加载的性能往往会成为瓶颈.最近又遇到了一个典型的数据加载场景,顺手总结一下相关的经验. 综合来看,提高加载速度的办法主要有: 1 优化表结构和定义 1.     表定义中避免采用操作代价较高的数据类型,例如在允许的情况下用 INTEGER 或 DOUBLE 代替 DECIMAL. 2.     延迟进行约束或完整性检查,例如在数据加载之后再创建索引和外码约束等. 3.     针对性的做一些物理参数调优,例如调整数据库页

SWF关于远程源和允许跨域数据加载

加载|数据 与 HTML 页面类似,SWF 文件是用于捕获和显示信息的窗口.然而,SWF 文件可以在浏览器中保持加载状态,同时用新信息持续更新而不必重新加载整个页面.使用动作脚本函数和方法,可以向服务器端脚本.文本文件以及 XML 文件发送信息,也可从它们那里接收信息. 此外,服务器端脚本可从数据库中请求特定信息,然后将其转发给 SWF 文件.可用多种不同的语言撰写服务器端脚本:其中最常用的是 CFML.Perl.ASP (Microsoft Active Server Pages) 和 PHP

表单-Extjs 怎么控制combo 数据加载与赋值的先后顺序

问题描述 Extjs 怎么控制combo 数据加载与赋值的先后顺序 在form 表单中,有多个combo 下拉框, 使用 form.getForm().load() 方法请求数据并为表单赋值, 这样会造成 combo 数据还没有加载完就给 combo 赋值, 会导致无法赋上值, 如果 各个combo 还有级联关系就更加恼火了, 各位大神有不有解决办法诶---怎么控制combo 数据加载与赋值的先后顺序: 解决方案 Ext.ajax加载数据存储进入变量中,用loadReocrd方法加载,combo

jQuery学习笔记之 Ajax操作篇(一) - 数据加载_jquery

加载 HTML 我们通常使用加载 HTML 的方法来加载 HTML 片段,并插入到指定位置,假设当前页面为: <div></div> <button>load</button> 同目录下的 test.html 文件内容为: <span>test</span> 我们可以使用 load 方法来加载 HTML,将其绑定到按钮的点击事件上: $('button').click(function() { $('div').load('test.

nhibernate数据加载之Criteria加载

加载|数据 Criteria是通过一组条件表达式(Expression)来加载数据的,它返回满足条件的对象集合. 主要接口为ICriteria,实现为CriteriaImpl类,此类加有Internal修饰,因此不能在程序集外显示创建,nhibernate在session对象中为我们提供了一个方法CreateCriteria,此方法返回ICriteria接口. 这里列出了ICriteria接口的一些方法:SetMaxResults:设置返回的最大结果数,可用于分页:SetFirstResult:

oracle的sql loader数据加载工具

SQL*LOADER是ORACLE的数据加载工具,通常用来将操作系统文件迁移到ORACLE数据库中.SQL*LOADER是大型数据 仓库选择使用的加载方法. 在NT下,SQL*LOADER的命令为SQLLDR,在UNIX下一般为sqlldr/sqlload. 如执行:d:/oracle>sqlldr SQL*Loader: Release 8.1.6.0.0 - Production on 星期二 1月 8 11:06:42 2002 (c) Copyright 1999 Oracle Corp

WorldWind系列十四:DEM数据加载和应用——以SRTM为例(上)

DEM应用在WW的三维表现中占有很重要的位置,跟影像数据同等重要!幸好影像和DEM的加载和处理原理上几乎一致,对基于WW搞GIS三维开发来说是件好事,理解好任何一种,另一种触类旁通!前一篇,主要从功能上做了简单入门介绍,该篇将从代码级别分析WW内置的SRTM的DEM数据加载和应用,下一篇讲从二次开发角度上讲解如何处理.配置自己的影像和DEM数据.呵呵,因为DEM部分很重要,且是放假期间我也有时间,争取篇篇精彩! 两个缩写词介绍:因为这两个缩写词常出现,知道是什么缩写,就不觉得神秘啦! SRTM:

jsp-将JSP网页上的数据加载到word模板中然后发送到指定的邮箱

问题描述 将JSP网页上的数据加载到word模板中然后发送到指定的邮箱 现在需要做一个简单的页面应用,个人以前很少做这种.就是在一个JSP页面上填写相关的信息,然后将信息获取填充到给定的word文档中,最后将word文档发送到指定的邮箱. 上面的是简单的需求.我分析了下,可以分为三步:第一.按照word文档制作一个JSP页面,第二.将页面上的数据提取然后写入到word中,第三.发送邮件. 现在感到最困难的就是第二步,写数据到word中,不知道有没有什么好的方法可以推荐,或者有类似的项目给我借鉴下