numpy:python数据领域的功臣

前言

numpy对python的意义非凡,在数据分析与机器学习领域为python立下了汗马功劳。现在用python搞数据分析或机器学习经常使用的pandas、matplotlib、sklearn等库,都需要基于numpy构建。毫不夸张地说,没有numpy,python今天在数据分析与机器学习领域只能是捉襟见肘。

什么是一门好的数据分析语言

数据分析面向的数据大多数是二维表。一门好的数据分析语言,首先需要能够直接有个数据结构存下这个二维表,然后要配上一套成熟的类SQL的数据操作接口,最后要有一套好用的可视化工具。R语言就是一个极好的典范:用内置的data.frame结构做数据的存储;data.frame本身提供足够强大的数据操作能力,另有dplyr、tidyr、data.table、plyr、reshape2等库提供更好用更高效的数据操作能力;在绘图上,除了基本的plot功能外,还提供了ggplot2这样一套优雅的绘图语言,还通过htmlwidget库与javascript各种绘图库建立了紧密的联系,让可视化的动态展示效果更进一步。Excel也是一个极好的例子,有单元格这种灵活的结构为数据存储做支撑,有大量的函数实现灵活的操作,也有强大的绘图系统。

python目前在数据分析领域也已经具备了相当可观的能力,包括pandas库实现的DataFrame结构,pandas本身提供的数据操作能力,matplotlib提供的数据可视化能力,而这一切都离不开numpy库。

什么是一门好的机器学习语言

一般来讲,一门好的机器学习语言在数据分析上也一定很吃得开,因为数据分析往往是机器学习的基础。但是机器学习的要求更高,因为在模型训练阶段往往需要较为复杂的参数估计运算,因此语言需要具备较强的科学计算能力。科学计算能力,最核心的就是矩阵运算能力。关于矩阵运算能力,这篇文章对各种语言有很好的比较。

如果没有numpy,python内部只能用list或array来表示矩阵。假如用list来表示[1,2,3],由于list的元素可以是任何对象,因此list中所保存的是对象的指针,所以需要有3个指针和三个整数对象,比较浪费内存和CPU计算时间。python的array和list不同,它直接保存数值,和C语言的一维数组比较类似,但是不支持多维,表达形式很简陋,写科学计算的算法很难受。numpy弥补了这些不足,其提供的ndarray是存储单一数据类型的多维数组,且采用预编译好的C语言代码,性能上的表现也十分不错。

python最流行的机器学习库sklearn构建在numpy之上,提供了各种标准机器学习模型的训练与预测接口,其中模型训练接口的内部实现是基于numpy库实现的。比如很常见的线性回归模型,参数估计调用的是numpy.linalg.lstsq函数。

numpy的核心结构:ndarray

以下内容摘录自用Python做科学计算


  1. a = np.array([[0,1,2],[3,4,5],[6,7,8]], dtype=np.float32) 

ndarray是numpy的核心数据结构。我们来看一下ndarray如何在内存中储存的:关于数组的描述信息保存在一个数据结构中,这个结构引用两个对象,一块用于保存数据的存储区域和一个用于描述元素类型的dtype对象。

数据存储区域保存着数组中所有元素的二进制数据,dtype对象则知道如何将元素的二进制数据转换为可用的值。数组的维数、大小等信息都保存在ndarray数组对象的数据结构中。

strides中保存的是当每个轴的下标增加1时,数据存储区中的指针所增加的字节数。例如图中的strides为12,4,即第0轴的下标增加1时,数据的地址增加12个字节:即a[1,0]的地址比a[0,0]的地址要高12个字节,正好是3个单精度浮点数的总字节数;第1轴下标增加1时,数据的地址增加4个字节,正好是单精度浮点数的字节数。

以下内容总结自Numpy官方文档Numpy basics

关于ndarray的索引方式,有以下几个重点需要记住:

  • 虽然x[0,2] = x0,但是前者效率比后者高,因为后者在应用第一个索引后需要先创建一个temporary array,然后再应用第二个索引,最后找到目标值。
  • 分片操作不会引发copy操作,而是创建原ndarray的view;他们所指向的内存是同一片区域,无论是修改原ndarray还是修改view,都会同时改变二者的值。
  • index array和boolean index返回的是copy,不是view。

关于上面列举的分片操作不会引发copy操作,我们来进一步探讨一下。先看一下numpy的例子:

再来看一下R的例子:

可以看到numpy和R在矩阵的分片操作有不同的设计理念:在R里分片操作会引起数据的复制,在numpy里不会。事实上,R的设计理念很多时候可以用一句话来概括:copy
on
modify,一旦对数据有修改就会引起内存上的复制操作,这个操作要花不少时间,因此经常会听到人们抱怨R费内存且速度慢。所以,我们可以看到numpy在处理这件事情上明显要用心很多,根据场景设计了不同的策略,不是简单地采用R的一刀切方式。当然,这也带来了一些学习成本,需要对numpy足够熟悉才能避免踩坑。R社区里对copy
on
modify的哲学也有诟病并在努力改变,比如同是data.frame操作库的data.table和dplyr,data.table性能比dplyr高很多,部分原因也是data.table规避了copy
on modify的方式。

Structured Array

根据numpy的官方文档,定义结构化数组有四种方式。本文采用字典方法,通过定义一个dtype对象实现,需要指定的键值有names和formats。


  1. persontype = np.dtype({ 
  2.         'names': ['name', 'age', 'weight'],  
  3.         'formats': ['S32', 'i', 'f'] 
  4.     }) 
  5. a = np.array([("Zhang", 32, 75.5), ("Wang", 24, 65.2)], dtype=persontype)  

我们用IPython的计时函数看一下提取数据的效率:


  1. %timeit a[1] 
  2. %timeit a['name'] 
  3. %timeit a[1]['name'] 
  4. %timeit a['name'][1]  

输出结果如下:


  1. The slowest run took 46.83 times longer than the fastest. This could mean that an intermediate result is being cached. 
  2. 1000000 loops, best of 3: 153 ns per loop 
  3. The slowest run took 34.34 times longer than the fastest. This could mean that an intermediate result is being cached. 
  4. 10000000 loops, best of 3: 174 ns per loop 
  5. The slowest run took 13.00 times longer than the fastest. This could mean that an intermediate result is being cached. 
  6. 1000000 loops, best of 3: 1.08 µs per loop 
  7. The slowest run took 9.84 times longer than the fastest. This could mean that an intermediate result is being cached. 
  8. 1000000 loops, best of 3: 412 ns per loop  

从上面的结果,我们发现,获取相同的数据有多种操作,不同的操作性能差别很大。我做了一个推测,纯粹是瞎猜:numpy在建立结构化数组时,将整个结构体连续存储在一起,即按行存储,因此a[1]的速度最快;但是为了保证提取列的效率,对a['name']建立了索引,因此a['name']的效率也很高;但是这个索引只对整个a起作用,如果输入只有a的一部分,仍然需要遍历整个a,去提取出对应的数据,因此a[1]['name']比a['name'][1]的效率差很多。

实例

基于numpy过滤抖动与填补

时间序列数据经常会发现两种情况:一种是抖得特别厉害,说明数据不稳定不可信,支撑这个结果的数据量不够;另一种是一动不动的一条直线,这往往是算法填充出来的默认值,不是实际值。这些数据对于挖掘来说是噪音,应该过滤掉。我们使用numpy来完成这个任务。抖动的特点是频繁跳动,即一阶差分有很多值绝对值比0大很多,那么我们将这些跳动的点抓出来,统计下这些点之间的区间长度,如果区间长度过小,认为是抖动过多。填补的特点是数值长期不变,即一阶差分有很多值为0,那么我们统计一下连续为0的区间长度分布,如果区间长度过长,比如连续填补了1小时,或者出现多个填补了30分钟的区间,我们认为是填补过多。

我们需要对跳点进行定义:一阶差分的绝对值超过dev_thresh,一阶差分/max(基准1,基准2)的绝对值超过ratio_thresh。


  1. def jump(speed_array, dev_thresh, ratio_thresh): 
  2.   diff_array = np.diff(speed_array, axis=0) 
  3.   diff_array = diff_array.astype(np.float64) 
  4.   ratio_array = diff_array/np.maxium(speed_array[:-1], speed_array[1:]) 
  5.   ret_array = np.zeros(diff_array.size, dtype=np.int8) 
  6.   for i in range(diff_array.size): 
  7.     if abs(diff_array[i]) > diff_thresh and abs(ratio_array[i]) > ratio_thresh: 
  8.       ret_array[i] = 1 
  9.   return ret_array 
  10.  
  11. def interval(jump_array): 
  12.   jump_idx = np.array([0] + [i for i,x in enumerate(jump_array) if x != 0] + [jump_array.size]) 
  13.   interval_size = np.diff(jump_idx) 
  14.   return interval_size 
  15.  
  16. def is_jump_too_much(interval_size): 
  17.   flag = 0 
  18.   if np.mean(interval_size) <= 10 or np.max(interval_size) <= 30: 
  19.       flag = 1 
  20.   return flag 
  21.  
  22. def is_fill_too_much(interval_size): 
  23.   flag = 0 
  24.   bin_array = np.bincount(interval_size) 
  25.   if ( len(bin_array) >= 30 or  
  26.        ( len(bin_array) >= 11 and np.sum(bin_array[10:]) >= 4 ) or  
  27.        ( len(bin_array) >= 7 and np.sum(bin_array[6:]) >= 20 ) 
  28.       ): 
  29.       flag = 1 
  30.   return flag  

基于numpy的局部趋势拟合

用线性回归可以得到时间序列的趋势。


  1. def get_ts_trend(ts_array): 
  2.   x = np.arange(0, len(ts_array), 1) 
  3.   y = ts_array 
  4.   A = np.vstack([x, np.ones(len(x))]).T 
  5.   m, c = np.linalg.lstsq(A, y)[0] 
  6.   return m  

堵点判别

交通数据比较复杂,不纯粹是时间序列问题,而是时空数据,需要同时考虑时间关系和空间关系。本节介绍一个经典特征的提取:堵点判别。

假设我们空间上有5个link,上游2个,自身1个,下游2个;观察5个时间点的拥堵状态。判断当前link是不是堵点——即自身是拓扑中第一个发生拥堵的点;发生拥堵后,拥堵是扩散的。


  1. def detect_congest_point(congest_array): 
  2.     first_congest_flag = False 
  3.     disperse_congest_flag = True 
  4.     idx = np.where(congest_array == 1) 
  5.     if idx[1][0] == congest_array.shape[1]/2: 
  6.         first_congest_flag = True 
  7.      
  8.     disperse_dict = {} 
  9.     for k in range(len(idx[0])): 
  10.         if disperse_dict.has_key(idx[0][k]): 
  11.             disperse_dict[idx[0][k]].append(idx[1][k]) 
  12.         else: 
  13.             disperse_dict[idx[0][k]] = [idx[1][k]] 
  14.     sorted_disperse_list = sorted(disperse_dict.iteritems(), key=lambda d:d[0]) 
  15.     for i in range(1, len(sorted_disperse_list)): 
  16.         if not set(sorted_disperse_list[i-1][1]) <= set(sorted_disperse_list[i][1]): 
  17.             disperse_congest_flag = False 
  18.      
  19.     return first_congest_flag and disperse_congest_flag  

作者:丹追兵

来源:51CTO

时间: 2025-01-21 00:12:02

numpy:python数据领域的功臣的相关文章

《Python数据可视化编程实战》—— 1.2 安装matplotlib、Numpy和Scipy库

1.2 安装matplotlib.Numpy和Scipy库 Python数据可视化编程实战 本章介绍了matplotlib及其依赖的软件在Linux平台上的几种安装方法. 1.2.1 准备工作 这里假设你已经安装了Linux系统且安装好了Python(推荐使用Debian/Ubuntu或RedHat/SciLinux).在前面提到的Linux系统发行版中,Python通常是默认安装的.如果没有,使用标准的软件安装方式安装Python也是非常简便的.本书假设你安装的Python版本为2.7或以上.

2017年大数据领域,这7大技术将退役!

文章讲的是2017年大数据领域,这7大技术将退役,我们已经在大数据领域进行了很长时间的探险了,虽然大数据已经不再让人眼前一亮和感到新鲜,但技术的不断更新足以让你时刻关注这个领域.同时,这也是很多企业技术更新最快的领域,但还是有一些技术会长期占据靠前的位置,直到有更好的替代品出现为止. 许多技术在未来面临着很大变化,或者重大升级.以下的这些技术,你或许可以考虑替换掉了: 1.MapReduce. MapReduce速度很慢,它很少成为解决问题的最佳方式.还有其他算法可供选择 - 最常见的是DAG,

2016大数据领域最有“钱”途的十大职业

缺人,这是全国乃至全球大数据圈都挺蛋疼的一件事儿,一边是"大数据热"疯狂蔓延,一边是 "供血"严重不足.企业家们着急得很,服务器齐齐杵那儿,光耗电不输出也很闹心.Gartner公司早前预测,2015年仅凭大数据就能为全球增加440万个就业岗位,但只有三分之一的岗位可以招到人,意味着近300万的岗位"虚位以待". 而2015年,中国的大数据人才缺口已经超过100万人.在技术.资本和市场的强推下,大数据今年发展的势头更加迅猛了,但大数据人才只有46万

7款Python数据图表工具的比较

Python 的科学栈相当成熟,各种应用场景都有相关的模块,包括机器学习和数据分析.数据可视化是发现数据和展示结果的重要一环,只不过过去以来,相对于 R 这样的工具,发展还是落后一些. 幸运的是,过去几年出现了很多新的Python数据可视化库,弥补了一些这方面的差距.matplotlib 已经成为事实上的数据可视化方面最主要的库,此外还有很多其他库,例如vispy,bokeh, seaborn, pyga, folium 和 networkx,这些库有些是构建在 matplotlib 之上,还有

八个 Python 数据生态圈的前沿项目

Galvanize 最近在旧金山参加了 Dato 数据科学峰会,这次会议聚集了千余名来自业界和学术界的数据科学研究人员,他们交流并探讨关于数据科学.机器学习应用和预测模型的最新进展. 以下是我导师认为数据科学家将在未来数月乃至数年里使用的八个 Python 工具. 1. SFrame and SGraph Dato 数据科学峰会中重磅消息之一是 Dato 将在 BSD 协议下开源SFrame 和 SGraph.SFrame (short for Scaleable Data Frame) 提供可

Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas)

Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas) 如果还没有本地安装Python.IPython.notebook等请移步 上篇Python,IPython,qtconsole,Notebook,Jupyter快速安装教程 本教程是安装二进制文件,以Windows10 64位操作系统为例,但是二进制文件对应其他Linux和mac os也同样试用. 在开始安装之前,请注意以下前提条件.否则,会出现各种问题. 默认机器上已经安装了P

7 款 Python 数据图表工具的比较

Python 的科学栈相当成熟,各种应用场景都有相关的模块,包括机器学习和数据分析.数据可视化是发现数据和展示结果的重要一环,只不过过去以来,相对于 R 这样的工具,发展还是落后一些. 幸运的是,过去几年出现了很多新的Python数据可视化库,弥补了一些这方面的差距.matplotlib 已经成为事实上的数据可视化方面最主要的库,此外还有很多其他库,例如vispy,bokeh, seaborn, pyga, folium 和 networkx,这些库有些是构建在 matplotlib 之上,还有

《Python数据可视化编程实战》——5.2 创建3D柱状图

5.2 创建3D柱状图 Python数据可视化编程实战 虽然matplotlib主要专注于绘图,并且主要是二维的图形,但是它也有一些不同的扩展,能让我们在地理图上绘图,让我们把Excel和3D图表结合起来.在matplotlib的世界里,这些扩展叫做工具包(toolkits).工具包是一些关注在某个话题(如3D绘图)的特定函数的集合. 比较流行的工具包有Basemap.GTK 工具.Excel工具.Natgrid.AxesGrid和mplot3d. 本节将探索关于mplot3d的更多功能.mpl

《Python数据可视化编程实战》—— 1.6 安装图像处理工具:Python图像库(PIL)

1.6 安装图像处理工具:Python图像库(PIL) Python数据可视化编程实战Python图像库(PIL)为Python提供了图像处理能力.PIL支持的文件格式相当广泛,在图像处理领域提供了相当强大的功能. 快速数据访问.点运算(point operations).滤波(filtering).图像缩放.旋转.任意仿射转换(arbitrary affine transforms)是PIL中一些应用非常广泛的特性.例如,图像的统计数据即可通过histogram方法获得. PIL同样可以应用在