python大数据工作流程

本文作者:hhh5460

 

大数据分析,内存不够用怎么办?

当然,你可以升级你的电脑为超级电脑。

另外,你也可以采用硬盘操作。

本文示范了硬盘操作的一种可能的方式。

 

本文基于:win10(64) + py3.5

 

本人电脑配置:4G内存

 

说明:

数据大小:5.6G

数据描述:自2010年以来,纽约的311投诉

数据来源:纽约开放数据官网(NYC's open data portal)

数据下载:https://data.cityofnewyork.us/api/views/erm2-nwe9/rows.csv?accessType=DOWNLOAD

import pandas as pd
import time

'''python大数据分析工作流程'''
# 5G大数据文件,csv格式
reader = pd.read_csv('311_Service_Requests_from_2010_to_Present.csv', iterator=True, encoding='utf-8')

# HDF5格式文件支持硬盘操作,不需要全部读入内存
store = pd.HDFStore('311_Service_Requests_from_2010_to_Present.h5')

# 然后用迭代的方式转换.csv格式为.h5格式
chunkSize = 100000
i = 0
while True:
    try:
        start = time.clock()

        # 从csv文件迭代读取
        df = reader.get_chunk(chunkSize)

        # 去除列名中的空格
        df = df.rename(columns={c: c.replace(' ', '') for c in df.columns})

        # 转换为日期时间格式
        df['CreatedDate'] = pd.to_datetime(df['CreatedDate'])
        df['ClosedDate'] = pd.to_datetime(df['ClosedDate'])

        # 感兴趣的列
        columns = ['Agency', 'CreatedDate', 'ClosedDate', 'ComplaintType',
                   'Descriptor', 'TimeToCompletion', 'City']
        # 不感兴趣的列
        columns_for_drop = list(set(df.columns) - set(columns))
        df.drop(columns_for_drop, inplace=True, axis=1, errors='ignore')

        # 转到h5文件
        # 通过指定data_columns,建立额外的索引器,可提升查询速度
        store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'])

        # 计时
        i += 1
        end = time.clock()
        print('{} 秒: completed {} rows'.format(end - start, i * chunksize))
    except StopIteration:
        print("Iteration is stopped.")
        break

# 转换完成之后,就可以选出想要进行数据分析的行,将其从硬盘导入到内存,如:
# 导入前三行
#store.select('df', "index<3")

# 导入 ComplaintType, Descriptor, Agency这三列的前十行
#store.select('df', "index<10 & columns=['ComplaintType', 'Descriptor', 'Agency']")

# 导入 ComplaintType, Descriptor, Agency这三列中满足Agency=='NYPD'的前十行
#store.select('df', "columns=['ComplaintType', 'Descriptor', 'Agency'] & Agency=='NYPD'").head(10)

# 导入 ComplaintType, Descriptor, Agency这三列中满足Agency IN ('NYPD', 'DOB')的前十行
#store.select('df', "columns=['ComplaintType', 'Descriptor', 'Agency'] & Agency IN ('NYPD', 'DOB')")[:10]

# ======================================
# 下面示范一个groupby操作
# 说明:由于数据太大,远超内存。因此无法全部导入内存。
# ======================================
# 硬盘操作:导入所有的 City 名称
cities = store.select_column('df','City').unique()
print("\ngroups:%s" % cities)

# 循环读取 city
groups = []
for city in cities:
    # 硬盘操作:按City名称选取
    group = store.select('df', 'City=%s' % city)

    # 这里进行你想要的数据处理
    groups.append(group[['ComplaintType', 'Descriptor', 'Agency']].sum())

print("\nresult:\n%s" % pd.concat(groups, keys = cities))

# 最后,记得关闭
store.close()

 

 

附:

运行过程中出现了一个错误

 

把上面的:

# 转到h5文件
# 通过指定data_columns,建立额外的索引器
store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'])

 

改为:

# 转到h5文件
# 通过指定data_columns,建立额外的索引器
# 通过指定min_itemsize,设定存储混合类型长度
store.append('df', df, data_columns = ['ComplaintType', 'Descriptor', 'Agency'], min_itemsize = {'values': 50})

 关于min_itemsize详情,见:http://pandas.pydata.org/pandas-docs/stable/io.html#storing-types

 

参考:

https://plot.ly/python/big-data-analytics-with-pandas-and-sqlite/

http://stackoverflow.com/questions/14262433/large-data-work-flows-using-pandas

http://python.jobbole.com/84118/

 

时间: 2024-09-20 14:53:21

python大数据工作流程的相关文章

大数据全流程平台在互联网金融的实现

本文讲的是大数据全流程平台在互联网金融的实现, 如果有这么一家公司,它把数据视为它的生命线,那么它对数据系统一定有非常非常多的需求,它可能会要求它们的数据系统足够灵活,可以非常方便的加减数据源,它可能需要实时查询裸数据,也有可能对这个数据进行各种各样的计算,它还有可能去提高每次访问的实时性,同时也有可能提高批量离线分析时的性能以及水平扩展能力,如果你是一个架构师,你会怎样设计这套系统呢? 大家下午好,我是来自宜信的侯松,我今天分享的主题是<大数据全流程平台在互联网金融场景下的实现和借鉴意义>,

大数据工作的正确打开姿势

最近跟一家著名互联网企业的首席架构师讨论起了数据的话题,得知其正为数据迅速膨胀却无法很快产生价值而发愁.我开玩笑说;"您这是饱汉子不知道饿汉子饥,我们想数据都想疯了".其回复:"这些数据消耗的资源实在太庞大了!若不能产生价值,很难维持这样的运作模式".十分认同这个观点,回顾一年来实施公司大数据战略中的实践,关键问题的确不是数据的大小,而是如何利用数据迅速产生价值. 一.用数据为经营管理提供帮助 大多数传统企业习惯于依靠经验凭直觉分析经营管理中的具体问题,提出相关解决

2014 年八大最热门的大数据工作

大数据时代,数据过剩,人才短缺,越来越多的IT专业人士希望能够进入充满机遇的大数据领域,但是,到底哪些具体的大数据专业岗位和人才最为吃香呢?人力资源公司Kforce近日发布了一份报告根据IT职业薪酬水平给出了2014年最热门的十大大数据工作职位(年薪):一.ETL开发者(11-13万美元) 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛.ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要. ETL软件行业相对成熟,相关岗位的工作生命

2014年八大最热门的大数据工作

大数据时代,数据过剩,人才短缺,越来越多的IT专业人士希望能够进入充满机遇的大数据领域,但是,到底哪些具体的大数据专业岗位和人才最为吃香呢?人力资源公司Kforce近日发布了一份报告根据IT职业薪酬水平给出了2014年最热门的十大大数据工作职位(年薪): 一.ETL开发者(11-13万美元) 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛.ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要. ETL软件行业相对成熟,相关岗位的工作生

七个HR总监容易懵圈的大数据工作职位

大数据时代,数据驱动型企业的决策质量和效率将远超竞争对手,但无论大数据也好,小数据也罢,企业的庞大数据资产如果没有专业人才点石成金,也只能是污染环境的矿渣,而数据分析专家,如今正是企业数字化转型中最热门的人才.以下IT经理网根据Glassdoor的招聘数据统计,为大家整理目前最为炙手可热,同时又容易让企业人力资源总监"傻傻分不清"的大数据高薪职位,供大家参考: 一.数据科学家 数据科学家是过去几年最吸睛的数据分析金字塔尖岗位,同时也被Glassdoor评为工作生活平衡度最好的高级IT职

Python+大数据计算平台,PyODPS架构手把手教你搭建

数据分析和机器学习 大数据基本都是建立在Hadoop系统的生态上的,其实一个Java的环境.很多人喜欢用Python和R来进行数据分析,但是这往往对应一些小数据的问题,或者本地数据处理的问题.如何将二者进行结合使其具有更大的价值?Hadoop现有的生态系统和现有的Python环境如上图所示. MaxCompute MaxCompute是面向离线计算的大数据平台,提供TB/PB级的数据处理,多租户.开箱即用.隔离机制确保安全.MaxCompute上主要分析的工具就是SQL,SQL非常简单.容易上手

[hadoop+spark+python]大数据实战随手笔记

1.提交任务 指令(我配置了spark-submit的环境变量) spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10 fielname 逐条解释如下: (1)–class org.apache.spark.examples.SparkPi 设置运行的环境,java或者ya

想从事大数据工作,如何自学打基础

http://www.aliyun.com/zixun/aggregation/13584.html">海量数据分成两块,一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优

2014大数据趋势及安防市场如何应对?

2月8日消息,据国外媒体报道,云计算管理公司adaptivecomputing最近发表了它对2014年未来计算和大数据分析的主要预测.这些预测包含一些新兴趋势,如云计算的冲突.高性能计算和大数据等.这些趋势将加快企业从数据中提取见解的方式. 1.企业将合并计算资源以便提供更好的大数据解决方案 据adaptivecomputing的调查,91%的机构认为大数据.高性能计算或者云计算将出现一些合并.adaptivecomputing预测称,随着云计算.高性能计算和大数据之间的冲突日益激烈,投资能够编