教你用Python创建瀑布图

介绍

对于绘制某些类型的数据来说,瀑布图是一种十分有用的工具。不足为奇的是,我们可以使用Pandas和matplotlib创建一个可重复的瀑布图。

在往下进行之前,我想先告诉大家我指代的是哪种类型的图表。我将建立一个维基百科文章中描述的2D瀑布图。

这种图表的一个典型的用处是显示开始值和结束值之间起“桥梁”作用的+和-的值。因为这个原因,财务人员有时会将其称为一个桥梁。跟我之前所采用的其他例子相似,这种类型的绘图在Excel中不容易生成,当然肯定有生成它的方法,但是不容易记住。

关于瀑布图需要记住的关键点是:它本质上是一个堆叠在一起的条形图,不过特殊的一点是,它有一个空白底栏,所以顶部栏会“悬浮”在空中。那么,让我们开始吧。

创建图表

首先,执行标准的输入,并确保IPython能显示matplot图。


  1. import numpy as np 
  2. import pandas as pd 
  3. import matplotlib.pyplot as plt 

  1. %matplotlib inline 

设置我们想画出瀑布图的数据,并将其加载到数据帧(DataFrame)中。

数据需要以你的起始值开始,但是你需要给出最终的总数。我们将在下面计算它。


  1. index = ['sales','returns','credit fees','rebates','late charges','shipping'] 
  2. data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} 
  3. trans = pd.DataFrame(data=data,index=index) 

我使用了IPython中便捷的display函数来更简单地控制我要显示的内容。


  1. from IPython.display import display 
  2. display(trans)

瀑布图的最大技巧是计算出底部堆叠条形图的内容。有关这一点,我从stackoverflow上的讨论中学到很多。

首先,我们得到累积和。


  1. display(trans.amount.cumsum()) 
  2.  
  3. sales 350000 
  4.  
  5. returns 320000 
  6.  
  7. credit fees 312500 
  8.  
  9. rebates 287500 
  10.  
  11. late charges 382500 
  12.  
  13. shipping 375500 
  14.  
  15. Name: amount, dtype: int64 

这看起来不错,但我们需要将一个地方的数据转移到右边。


  1. blank=trans.amount.cumsum().shift(1).fillna(0) 
  2.  
  3. display(blank)

  1. sales 0 
  2.  
  3. returns 350000 
  4.  
  5. credit fees 320000 
  6.  
  7. rebates 312500 
  8.  
  9. late charges 287500 
  10.  
  11. shipping 382500 
  12.  
  13. Name: amount, dtype: float64 

我们需要向trans和blank数据帧中添加一个净总量。


  1. total = trans.sum().amount 
  2.  
  3. trans.loc["net"] = total 
  4.  
  5. blank.loc["net"] = total 
  6.  
  7. display(trans) 
  8.  
  9. display(blank) 


  1. sales 0 
  2.  
  3. returns 350000 
  4.  
  5. credit fees 320000 
  6.  
  7. rebates 312500 
  8.  
  9. late charges 287500 
  10.  
  11. shipping 382500 
  12.  
  13. net 375500 
  14.  
  15. Name: amount, dtype: float64 

创建我们用来显示变化的步骤。


  1. step = blank.reset_index(drop=True).repeat(3).shift(-1) 
  2.  
  3. step[1::3] = np.nan 
  4.  
  5. display(step)

  1. 0 0 
  2.  
  3. 0 NaN 
  4.  
  5. 0 350000 
  6.  
  7. 1 350000 
  8.  
  9. 1 NaN 
  10.  
  11. 1 320000 
  12.  
  13. 2 320000 
  14.  
  15. 2 NaN 
  16.  
  17. 2 312500 
  18.  
  19. 3 312500 
  20.  
  21. 3 NaN 
  22.  
  23. 3 287500 
  24.  
  25. 4 287500 
  26.  
  27. 4 NaN 
  28.  
  29. 4 382500 
  30.  
  31. 5 382500 
  32.  
  33. 5 NaN 
  34.  
  35. 5 375500 
  36.  
  37. 6 375500 
  38.  
  39. 6 NaN 
  40.  
  41. 6 NaN 
  42.  
  43. Name: amount, dtype: float64 

对于“net”行,为了不使堆叠加倍,我们需要确保blank值为0。


  1. blank.loc["net"] = 0 

然后,将其画图,看一下什么样子。


  1. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall") 
  2. my_plot.plot(step.index, step.values,'k')

看起来相当不错,但是让我们试着格式化Y轴,以使其更具有可读性。为此,我们使用FuncFormatter和一些Python2.7+的语法来截断小数并向格式中添加一个逗号。


  1. def money(x, pos): 
  2.  
  3. 'The two args are the value and tick position' 
  4.  
  5. return "${:,.0f}".format(x)

  1. from matplotlib.ticker import FuncFormatter 
  2. formatter = FuncFormatter(money) 

然后,将其组合在一起。


  1. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall") 
  2.  
  3. my_plot.plot(step.index, step.values,'k') 
  4.  
  5. my_plot.set_xlabel("Transaction Types") 
  6.  
  7. my_plot.yaxis.set_major_formatter(formatter)

完整脚本

基本图形能够正常工作,但是我想添加一些标签,并做一些小的格式修改。下面是我最终的脚本:


  1. import numpy as np 
  2.  
  3. import pandas as pd 
  4.  
  5. import matplotlib.pyplot as plt 
  6.  
  7. from matplotlib.ticker import FuncFormatter 
  8.  
  9.   
  10.  
  11. #Use python 2.7+ syntax to format currency 
  12.  
  13. def money(x, pos): 
  14.  
  15. 'The two args are the value and tick position' 
  16.  
  17. return "${:,.0f}".format(x) 
  18.  
  19. formatter = FuncFormatter(money) 
  20.  
  21.   
  22.  
  23. #Data to plot. Do not include a total, it will be calculated 
  24.  
  25. index = ['sales','returns','credit fees','rebates','late charges','shipping'] 
  26.  
  27. data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} 
  28.  
  29.   
  30.  
  31. #Store data and create a blank series to use for the waterfall 
  32.  
  33. trans = pd.DataFrame(data=data,index=index) 
  34.  
  35. blank = trans.amount.cumsum().shift(1).fillna(0) 
  36.  
  37.   
  38.  
  39. #Get the net total number for the final element in the waterfall 
  40.  
  41. total = trans.sum().amount 
  42.  
  43. trans.loc["net"]= total 
  44.  
  45. blank.loc["net"] = total 
  46.  
  47.   
  48.  
  49. #The steps graphically show the levels as well as used for label placement 
  50.  
  51. step = blank.reset_index(drop=True).repeat(3).shift(-1) 
  52.  
  53. step[1::3] = np.nan 
  54.  
  55.   
  56.  
  57. #When plotting the last element, we want to show the full bar, 
  58.  
  59. #Set the blank to 0 
  60.  
  61. blank.loc["net"] = 0 
  62.  
  63.   
  64.  
  65. #Plot and label 
  66.  
  67. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(10, 5), title="2014 Sales Waterfall") 
  68.  
  69. my_plot.plot(step.index, step.values,'k') 
  70.  
  71. my_plot.set_xlabel("Transaction Types") 
  72.  
  73.   
  74.  
  75. #Format the axis for dollars 
  76.  
  77. my_plot.yaxis.set_major_formatter(formatter) 
  78.  
  79.   
  80.  
  81. #Get the y-axis position for the labels 
  82.  
  83. y_height = trans.amount.cumsum().shift(1).fillna(0) 
  84.  
  85.   
  86.  
  87. #Get an offset so labels don't sit right on top of the bar 
  88.  
  89. max = trans.max() 
  90.  
  91. neg_offset = max / 25 
  92.  
  93. pos_offset = max / 50 
  94.  
  95. plot_offset = int(max / 15) 
  96.  
  97.   
  98.  
  99. #Start label loop 
  100.  
  101. loop = 0 
  102.  
  103. for index, row in trans.iterrows(): 
  104.  
  105. # For the last item in the list, we don't want to double count 
  106.  
  107. if row['amount'] == total: 
  108.  
  109. y = y_height[loop] 
  110.  
  111. else: 
  112.  
  113. y = y_height[loop] + row['amount'] 
  114.  
  115. # Determine if we want a neg or pos offset 
  116. if row['amount'] > 0: 
  117.  
  118. y += pos_offset 
  119.  
  120. else: 
  121.  
  122. y -= neg_offset 
  123.  
  124. my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center") 
  125.  
  126. loop+=1 
  127.  
  128.   
  129.  
  130. #Scale up the y axis so there is room for the labels 
  131.  
  132. my_plot.set_ylim(0,blank.max()+int(plot_offset)) 
  133.  
  134. #Rotate the labels 
  135.  
  136. my_plot.set_xticklabels(trans.index,rotation=0) 
  137.  
  138. my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight') 

运行该脚本将生成下面这个漂亮的图表:

最后的想法

如果你之前不熟悉瀑布图,希望这个示例能够向你展示它到底是多么有用。我想,可能一些人会觉得对于一个图表来说需要这么多的脚本代码有点糟糕。在某些方面,我同意这种想法。如果你仅仅只是做一个瀑布图,而以后不会再碰它,那么你还是继续用Excel中的方法吧。

然而,如果瀑布图真的很有用,并且你需要将它复制给100个客户,将会怎么样呢?接下来你将要怎么做呢?此时使用
Excel将会是一个挑战,而使用本文中的脚本来创建100个不同的表格将相当容易。再次说明,这一程序的真正价值在于,当你需要扩展这个解决方案时,它
能够便于你创建一个易于复制的程序。

我真的很喜欢学习更多Pandas、matplotlib和IPothon的知识。我很高兴这种方法能够帮到你,并希望其他人也可以从中学习到一些知识,并将这一课所学应用到他们的日常工作中。

来源:51CTO

时间: 2024-10-21 12:12:44

教你用Python创建瀑布图的相关文章

利用Python绘制数据的瀑布图的教程_python

介绍 对于绘制某些类型的数据来说,瀑布图是一种十分有用的工具.不足为奇的是,我们可以使用Pandas和matplotlib创建一个可重复的瀑布图. 在往下进行之前,我想先告诉大家我指代的是哪种类型的图表.我将建立一个维基百科文章中描述的2D瀑布图. 这种图表的一个典型的用处是显示开始值和结束值之间起"桥梁"作用的+和-的值.因为这个原因,财务人员有时会将其称为一个桥梁.跟我之前所采用的其他例子相似,这种类型的绘图在Excel中不容易生成,当然肯定有生成它的方法,但是不容易记住. 关于瀑

独家 | 手把手教你用Python 3创建用于机器学习开发的Linux虚拟机(附安装教程&代码)

Linux是使用Python进行机器学习开发的极佳环境.这些工具能够被简便快捷地安装,并且您可以直接开发和运行大型模型. 在本教程中,您将了解如何使用Python创建和安装用于机器学习的Linux虚拟机.完成本教程后,您将知道: 如何下载和安装VirtualBox来管理虚拟机如何下载和安装Fedora Linux如何在Python 3中为机器学习安装一个SciPy环境 如果您的电脑操作系统是Windows.Mac OS X和Linux.那么本教程是适合您的. Linux虚拟机的好处 您可能有很多

Excel如何制作瀑布图?

Excel如何制作瀑布图?   首先,来观察一下上面这个图的效果:上半部分是着色的,而下半部分是透明的.或许想到了,这样的图表应该是用到了不同的数据系列,通过对不同系列的颜色设置来实现数据系列的悬空效果. 制作瀑布图的具体操作方法如下: 1.准备数据 在C列增加一个"占位"的辅助列. C2单元格写入0,C3单元格写入公式 =B$2-SUM(B$3:B3) 向下复制. 2.创建图表 点击数据区域的任意单元格,[插入][柱形图]选择[堆积柱形图] 插入堆积柱形图后的效果如下: 3.清除不需

三步制作Excel瀑布图

  三步制作Excel瀑布图          瀑布图是指通过巧妙的设置,使图表中的数据点看似悬空.此种效果可以说明数据的大小,同时又能直观地展现出数据的增减变化,可用于反映数据在不同时期或受不同因素影响的程度及结果. 本Excel技巧以某公司8月份利润表为例来绘制瀑布图.具体制作步骤如下. Step1:添加作图用的辅助数据.在F2:H13单元格区域按"基础值"."收入"."支出"等3个分类重新归集利润表的数据,并在F3单元格输入下列公式=F2+

如何使用Excel制作瀑布图

  如何使用Excel制作瀑布图           图如其名,瀑布图是指通过巧妙的设置,使图表中数据点的排列形状看似瀑布悬空.这种效果的图形能够在反映数据在不同时期或受不同因素影响的程度及结果,还可以直观的反映出数据的增减变化,在Excel工作表中非常有实用价值.以下图所示数据为例,一起学习一下如何使用Excel制作瀑布图. 首先,来观察一下上面这个图的效果:上半部分是着色的,而下半部分是透明的.我们或许想到了,这样的图表应该是用到了不同的数据系列,通过对不同系列的颜色设置来实现数据系列的悬空

ASP.NET 2.0数据教程之二:创建一个业务逻辑层

本系列文章导航 ASP.NET 2.0数据教程之一:创建一个数据访问层 ASP.NET 2.0数据教程之二:创建一个业务逻辑层 ASP.NET 2.0数据教程之三:母板页和站点导航 ASP.NET 2.0数据教程之四:使用ObjectDataSource展现数据 ASP.NET 2.0数据教程之五:声明参数 ASP.NET 2.0数据教程之六:编程设置ObjectDataSource的参数值 ASP.NET 2.0数据教程之七:使用DropDownList过滤的主/从报表 ASP.NET 2.0

手把手教你用Python抓取AWS的日志(CloudTrail)数据

数据时代,利用数据做决策是大数据的核心价值.   本文手把手,教你使用python进行AWS的CloudTrail配置,进行日志抓取.进行数据分析,发现数据价值!   如今是云的时代,许多公司都把自己的IT架构部署在基础架构云(IaaS)上.著名的IaaS提供商有亚马逊,微软(Azure),IBM等,国内也有诸如阿里云等.其中,亚马逊毫无疑问是该市场的领军者.   AWS提供了非常多的服务,领先了竞争对手一大截.并且AWS提供非常丰富的API,其API基于Rest,所以很容易被不同的语言的平台来

python创建进程fork用法

  本文实例讲述了python创建进程fork用法.分享给大家供大家参考.具体分析如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 #!coding=utf-8 import os ,traceback import time ''' fork()系统调用是Unix下以自身进程创建子进程的系统调用, 一次调用,两次返回,如果返回是0, 则是子进程,如果返回值>0,则是父进程(返回

Python创建模块及模块导入的方法

  本文实例讲述了Python创建模块及模块导入的方法.分享给大家供大家参考.具体分析如下: python学习手册中写道: 定义模块,只要使用文本编辑器,把一些python代码输入到文本中,然后以.py为后缀名进行保存,任何此类文件都会被认为是python模块. 比如说,下面的代码输入到一个文件中,就可以看作是一个模块: ? 1 2 3 4 def printme(var): print var if __name__ == '__main__': printme(1) 假设说输入到a.py中,