python大数据工作流程

本文作者：hhh5460

大数据分析，内存不够用怎么办？

当然，你可以升级你的电脑为超级电脑。

另外，你也可以采用硬盘操作。

本文示范了硬盘操作的一种可能的方式。

本文基于：win10(64) + py3.5

本人电脑配置：4G内存

说明：

数据大小：5.6G

数据描述：自2010年以来，纽约的311投诉

数据来源：纽约开放数据官网(NYC's open data portal)

数据下载：https://data.cityofnewyork.us/api/views/erm2-nwe9/rows.csv?accessType=DOWNLOAD

import pandas as pd
import time

'''python大数据分析工作流程'''
# 5G大数据文件，csv格式
reader = pd.read_csv('311_Service_Requests_from_2010_to_Present.csv', iterator=True, encoding='utf-8')

# HDF5格式文件支持硬盘操作，不需要全部读入内存
store = pd.HDFStore('311_Service_Requests_from_2010_to_Present.h5')

# 然后用迭代的方式转换.csv格式为.h5格式
chunkSize = 100000
i = 0
while True:
    try:
        start = time.clock()

        # 从csv文件迭代读取
        df = reader.get_chunk(chunkSize)

        # 去除列名中的空格
        df = df.rename(columns={c: c.replace(' ', '') for c in df.columns})

        # 转换为日期时间格式
        df['CreatedDate'] = pd.to_datetime(df['CreatedDate'])
        df['ClosedDate'] = pd.to_datetime(df['ClosedDate'])

        # 感兴趣的列
        columns = ['Agency', 'CreatedDate', 'ClosedDate', 'ComplaintType',
                   'Descriptor', 'TimeToCompletion', 'City']
        # 不感兴趣的列
        columns_for_drop = list(set(df.columns) - set(columns))
        df.drop(columns_for_drop, inplace=True, axis=1, errors='ignore')

        # 转到h5文件
        # 通过指定data_columns，建立额外的索引器，可提升查询速度
        store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'])

        # 计时
        i += 1
        end = time.clock()
        print('{} 秒: completed {} rows'.format(end - start, i * chunksize))
    except StopIteration:
        print("Iteration is stopped.")
        break

# 转换完成之后，就可以选出想要进行数据分析的行，将其从硬盘导入到内存，如：
# 导入前三行
#store.select('df', "index<3")

# 导入 ComplaintType, Descriptor, Agency这三列的前十行
#store.select('df', "index<10 & columns=['ComplaintType', 'Descriptor', 'Agency']")

# 导入 ComplaintType, Descriptor, Agency这三列中满足Agency=='NYPD'的前十行
#store.select('df', "columns=['ComplaintType', 'Descriptor', 'Agency'] & Agency=='NYPD'").head(10)

# 导入 ComplaintType, Descriptor, Agency这三列中满足Agency IN ('NYPD', 'DOB')的前十行
#store.select('df', "columns=['ComplaintType', 'Descriptor', 'Agency'] & Agency IN ('NYPD', 'DOB')")[:10]

# ======================================
# 下面示范一个groupby操作
# 说明：由于数据太大，远超内存。因此无法全部导入内存。
# ======================================
# 硬盘操作：导入所有的 City 名称
cities = store.select_column('df','City').unique()
print("\ngroups:%s" % cities)

# 循环读取 city
groups = []
for city in cities:
    # 硬盘操作：按City名称选取
    group = store.select('df', 'City=%s' % city)

    # 这里进行你想要的数据处理
    groups.append(group[['ComplaintType', 'Descriptor', 'Agency']].sum())

print("\nresult:\n%s" % pd.concat(groups, keys = cities))

# 最后，记得关闭
store.close()

附：

运行过程中出现了一个错误

把上面的：

# 转到h5文件
# 通过指定data_columns，建立额外的索引器
store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'])

改为：

# 转到h5文件
# 通过指定data_columns，建立额外的索引器
# 通过指定min_itemsize，设定存储混合类型长度
store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'], min_itemsize = {'values': 50})

关于min_itemsize详情，见：http://pandas.pydata.org/pandas-docs/stable/io.html#storing-types

参考：

https://plot.ly/python/big-data-analytics-with-pandas-and-sqlite/

http://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas

http://python.jobbole.com/84118/

时间： 2024-09-20 14:53:21

python大数据工作流程的相关文章

大数据全流程平台在互联网金融的实现

本文讲的是大数据全流程平台在互联网金融的实现, 如果有这么一家公司,它把数据视为它的生命线,那么它对数据系统一定有非常非常多的需求,它可能会要求它们的数据系统足够灵活,可以非常方便的加减数据源,它可能需要实时查询裸数据,也有可能对这个数据进行各种各样的计算,它还有可能去提高每次访问的实时性,同时也有可能提高批量离线分析时的性能以及水平扩展能力,如果你是一个架构师,你会怎样设计这套系统呢? 大家下午好,我是来自宜信的侯松,我今天分享的主题是<大数据全流程平台在互联网金融场景下的实现和借鉴意义>,

大数据工作的正确打开姿势

最近跟一家著名互联网企业的首席架构师讨论起了数据的话题,得知其正为数据迅速膨胀却无法很快产生价值而发愁.我开玩笑说;"您这是饱汉子不知道饿汉子饥,我们想数据都想疯了".其回复:"这些数据消耗的资源实在太庞大了!若不能产生价值,很难维持这样的运作模式".十分认同这个观点,回顾一年来实施公司大数据战略中的实践,关键问题的确不是数据的大小,而是如何利用数据迅速产生价值. 一.用数据为经营管理提供帮助大多数传统企业习惯于依靠经验凭直觉分析经营管理中的具体问题,提出相关解决

2014 年八大最热门的大数据工作

大数据时代,数据过剩,人才短缺,越来越多的IT专业人士希望能够进入充满机遇的大数据领域,但是,到底哪些具体的大数据专业岗位和人才最为吃香呢?人力资源公司Kforce近日发布了一份报告根据IT职业薪酬水平给出了2014年最热门的十大大数据工作职位(年薪):一.ETL开发者(11-13万美元) 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛.ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要. ETL软件行业相对成熟,相关岗位的工作生命

2014年八大最热门的大数据工作

大数据时代,数据过剩,人才短缺,越来越多的IT专业人士希望能够进入充满机遇的大数据领域,但是,到底哪些具体的大数据专业岗位和人才最为吃香呢?人力资源公司Kforce近日发布了一份报告根据IT职业薪酬水平给出了2014年最热门的十大大数据工作职位(年薪): 一.ETL开发者(11-13万美元) 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛.ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要. ETL软件行业相对成熟,相关岗位的工作生

七个HR总监容易懵圈的大数据工作职位

大数据时代,数据驱动型企业的决策质量和效率将远超竞争对手,但无论大数据也好,小数据也罢,企业的庞大数据资产如果没有专业人才点石成金,也只能是污染环境的矿渣,而数据分析专家,如今正是企业数字化转型中最热门的人才.以下IT经理网根据Glassdoor的招聘数据统计,为大家整理目前最为炙手可热,同时又容易让企业人力资源总监"傻傻分不清"的大数据高薪职位,供大家参考: 一.数据科学家数据科学家是过去几年最吸睛的数据分析金字塔尖岗位,同时也被Glassdoor评为工作生活平衡度最好的高级IT职

Python+大数据计算平台，PyODPS架构手把手教你搭建

数据分析和机器学习大数据基本都是建立在Hadoop系统的生态上的,其实一个Java的环境.很多人喜欢用Python和R来进行数据分析,但是这往往对应一些小数据的问题,或者本地数据处理的问题.如何将二者进行结合使其具有更大的价值?Hadoop现有的生态系统和现有的Python环境如上图所示. MaxCompute MaxCompute是面向离线计算的大数据平台,提供TB/PB级的数据处理,多租户.开箱即用.隔离机制确保安全.MaxCompute上主要分析的工具就是SQL,SQL非常简单.容易上手

[hadoop+spark+python]大数据实战随手笔记

1.提交任务指令(我配置了spark-submit的环境变量) spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10 fielname 逐条解释如下: (1)–class org.apache.spark.examples.SparkPi 设置运行的环境,java或者ya

想从事大数据工作，如何自学打基础

http://www.aliyun.com/zixun/aggregation/13584.html">海量数据分成两块,一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优

2014大数据趋势及安防市场如何应对？

2月8日消息,据国外媒体报道,云计算管理公司adaptivecomputing最近发表了它对2014年未来计算和大数据分析的主要预测.这些预测包含一些新兴趋势,如云计算的冲突.高性能计算和大数据等.这些趋势将加快企业从数据中提取见解的方式. 1.企业将合并计算资源以便提供更好的大数据解决方案据adaptivecomputing的调查,91%的机构认为大数据.高性能计算或者云计算将出现一些合并.adaptivecomputing预测称,随着云计算.高性能计算和大数据之间的冲突日益激烈,投资能够编

猜你喜欢

全面挖掘Java Excel API 使用方法(2)

excel Workbook类提供的方法 1. int getNumberOfSheets() 获得工作薄(Workbook)中工作表(Sheet)的个数,示例: jxl.Workbook rw ...

ASP整合的一个SQL语句类

语句我们在写ASP数据库程序的时候,通常都会用到SQL语句,而在增加数据和更新数据的时候,通常会使用一下方式:insert into message (incept,sender,title,con ...

PHP.ini安全配置检测工具pcc简单介绍

这篇文章主要介绍了PHP.ini安全配置检测工具pcc简单介绍,这款工具非常实用,可以检测PHP配置文件中得配置项是否存在安全隐患,并提出相应的配置建议,需要的朋友可以参考下概述前一段时间,在 ...

遇到不会读的字，搜狗输入法怎么打出来？

有些时候我们会遇到一些自己不会读的字,比如骉.垚.魆.但又特别希望能立刻将不会读的字打出来并获知读音.那么,搜狗输入法的U模式会非常好的帮您解决这个问题.具体怎么使用下面小编会逐一介绍. 1. 拆 ...

学PowerPoint模板技巧提高制作效率

PowerPoint模板的应用可能不被人注意.如果能巧妙地利用PowerPoint模板,就可以为我们带来极大的方便,提升我们的工作效率. 灵活调用模板 PowerPoint提供的模板非常丰富,可以根据 ...

怎么都不会错的6条网页设计配色原则

身为网页设计新手的你,是不是还在纠结于你制作的网页找不到一组完美的配色方案?在本教程中我们将与你分享6条肯定会火,并且"错不了"的指导方针,你可以按照这些原则把握最基本的色彩规 ...

Win8.1终于支持支付宝！无需国际信用卡

在Win8里,要想在Windows应用商店(Windows Store)里付款购买一个收费的游戏或者应用软件,你得必须有一张Visa或MasterCard国际信用卡.而在Win8.1时代里,中国用户终 ...

Win8系统进不了BIOS无法对BIOS进行修改怎么办

如果要对Win8进行重装或者是修复,就要进入BIOS系统.但是有时候Win8系统就是进不了BIOS界面,所以也不能对BIOS进行修改,这个问题要怎么解决呢? 我们解决这个问题的方法很简单,只要重启 ...

win7记事本增加下划线的方法

很多人都将记事本和word文档相对比,因为同样是文字编辑工具,具体要辨别出那个最厉害的话,还真是公说公有理,婆说婆有理,因为各有他们的优势所在.首先说说记事本的优点,它的使用较为简单,里面不涉及到 ...

百度身边网页版下线功能整合进百度地图

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅 1月23日下午消息,百度旗下商户点 ...

google maps-关于google. map Demo问题

问题描述关于google. map Demo问题 20C 大神们谁走google map. demo啊,能实现导航,能获取到开车路程时间,开车距离解决方案 google map的问题Google ...

大数据时代的教育宏观治理体制现代化变革

随着云计算.大数据等新技术逐渐兴起,人类社会的信息化进程由计算机时代.互联网时代逐步迈向大数据时代.大数据作为新一代信息技术的集中反映,被视为具有无穷潜力的新兴产业领域,能为我国实现跨越式发展提供宝贵 ...

【SSH项目实战】国税协同平台-19.信息发布管理完善&amp;ueditor文本编辑插件

我们上次虽然完成了信息发布管理模块基础的增删改查,但是我们还有需求没有完成,其中最重要的一点就是需求上要求我们发布的信息必须是有格式的,word文档那种格式,而我们的原始textarea是清除所有文本 ...

c#-C#中，使图片的坐标轴放大，

问题描述 C#中,使图片的坐标轴放大, 如图所示,线条是由一个个点组成的,但由于X值变动的小,所以看不出有弧度,怎么在不变动点的数值的情况下,使得坐标轴的坐标放大, 解决方案你的画图的代码,所有和 ...

如何对数据库进行管理

阿里云关系型数据库 RDS(Relational Database Service)是一种稳定可靠.可弹性伸缩的在线数据库服务.基于飞天分布式系统和高性能存储,支持 MySQL.SQL Server. ...

做最成功的电影站秘诀！新手做站必读!

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅说到电影站,很多人都知道竞争情况是 ...

[演讲]北大鄂维南院士：智能时代意味着什么？

◆ ◆ ◆ 导读 Alphago人机大战带领人工智能走进了多数人的视野,也引导人工智能进入了一个新的时代,那么人工智能时代意味着什么?它又面临哪些发展与挑战?在中国大数据应用大会上,我国著名的数学家, ...

阿里云APP上线“备案刷脸核验”功能网站备案时间大幅缩短

建过网站的人都知道,网站备案真实性核验环节花费的时间比较长,为贯彻国务院"放管服"改革要求,工业和信息化部及各省通信管理局自2016年起指导境内接入服务企业开展了APP备案试点工作 ...

请问treeview的tag属性插入插入时间，用的是什么类型？

问题描述请问treeview的tag属性插入插入时间,用的是什么类型? 请问treeview的tag属性插入插入时间,用的是什么类型?怎么将时间日期类型和object类型进行互转?

关于eclipse和javac编译结果不一致的问题的分析与解决 (转)

关于eclipse和javac编译结果不一致的问题的分析与解决 (转) http://www.blogjava.net/lsbwahaha/archive/2009/05/23/277438.ht ...

Opera9.5对抗Firefox3 究竟鹿死谁手

中介交易 SEO诊断淘宝客云主机技术大厅在过去的两周内,四大浏览器中有两家都有了较大的变动.6月17日Firefox 3正式对外发布,24小时内的下载量已超过800万.上周Opera浏览器也推 ...

CSS word-wrap 防止表格被撑开做法

一.关于TD的noWrap属性 ☆提出问题: <td width="28%" align="right" nowrap > 我设置nowrap和不设 ...

linux编程-sonar安装，启动问题，在线等大神

问题描述 sonar安装,启动问题,在线等大神 sonar启动不了日志: 2015.07.10 08:59:58 ERROR web[o.a.c.h.Http11Protocol] Failed t ...

数据中心的直流电源与交流电源

本文作者Robert McFarlane认为尽管目前AC的使用仍然更为广泛,但他建议数据中心运营商们在某些情况下选择采用DC可能会有助于提高能源效率.但涉及到数据中心的的直流电源与交流电源的讨论时,很 ...

CIO的第五季梦想

CIO的第五季梦想--当CIO遇到IT-CMM 林是名副其实的"白""骨""精"(白领+骨干+精英),在一所大型国企任CIO,有着令人羡慕的 ...

渠道干戈再起，新网首战.cn域名9元起

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅互联网基础服务商新网日前在其代理平 ...

TrueCrypt 为何决定终止项目

TrueCrypt项目背后的匿名开发者突然将truecrypt.org官网定向到sourceforge.net项目主页, 宣布项目终止开发,并用红字警告使用TrueCrypt不安全,软件可能包含未修正 ...

开发一个Linux调试器（六）：源码级逐步执行

在前几篇博文中我们学习了 DWARF 信息以及它如何使我们将机器码和上层源码联系起来.这一次我们通过为我们的调试器添加源码级逐步调试将该知识应用于实际. 系列文章索引随着后面文章的发布,这些链接会逐 ...

5G开启运营商无限流量大战，WiFi未来会消失吗？

5G开启运营商无限流量大战,WiFi未来会消失吗?如今5G概念已不再陌生,按照行业认同的说法:2017年至2018年5G将在国内开始有序测试,2019年进行预商用.工信部之前已表示,中国将在2020年 ...

贵阳大数据那么热有多少落在了实处？

5月25日~29日,又是一年数博会召开,景象依旧空前,总理背书.业界大佬纷纷而至. 回望贵阳,短短两年多时间已经成了名副其实的大数据产业基地.这不仅仅是停留在机场.火车站.大街小巷的标语.标牌上,有 ...

热搜