云中的数据科学:应用IPython 和 pandas 进行投资分析

简介

让我们进行一个常见的分析,您可能自己就可以完成这个分析。假设您想分析股票绩效,那么您可以:

在 Yahoo 金融专区找一支股票。。

下载历史数据,保存为 CSV 文件格式。

将 CSV 文件导入 Excel。

进行数学分析:回归、描述性统计或使用 Excel Solver 工具进行线性优化。

很好,但本文为您展示一种更简单、更直观、功能更强大的方法,使用 IPython 和 pandas 进行同种分析。

IPython 库是使用 Python 的数据科学家的重要工具之一。该工具与 Excel 的最大不同在于,您可以使用它以交互方式探索来自某个交互式提示符的数据和分析。本文中的示例主要使用 IPython 作为机制来运行它们。

Python Data Analysis Library (pandas) 是一个拥有 BSD 许可证的开源库,为 Python 编程语言提供了高性能的、易于使用的数据结构和数据分析工具。

入门

在开始使用 IPython 和 pandas 时,需要设置您的 Linux 或 Unix 操作系统,如 Ubuntu 或 OS X。

安装 pip,pip 是一个用于安装和管理 Python 数据包的工具。您可能以前用过 easy_install,但 pip 现在已经取代了 easy_install。要安装 pip,请进入 Python 网站的 pip index 页面,按照说明进行操作。

在安装了 pip 之后,使用以下命令安装 IPython:

sudo pip install IPython

使用 pip 安装 pandas:

sudo pip install pandas

还有一个安装工具 — matplotlib,这是一个用于 Python 程序语言及其 NumPy 数值数学扩展的绘图库。请使用以下命令:

sudo pip install matplotlib

现在已经执行了所需的所有步骤,让我们开始使用 IPython 和 pandas 吧!

Pandas 简介

将您的投资组合数据输入到 pandas 中,请使用以下代码:

清单 1. Pandas 组合数据的导入

In [1]: import pandas.io.data as web

In [2]: from pandas import DataFrame

In [3]: data_feed = {}

In [4]: symbols=['AAPL','FB', 'GOOG', 'SPLK', 'YELP', 'GG','BP','SCPJ','JNJ', 'OMG']

In [5]: for ticker in symbols:
...:         data_feed[ticker] = web.get_data_yahoo(ticker, '05/21/2012', '11/1/2012')
...:

In [6]: price = DataFrame({tic: data['Adj Close']
...:     for tic, data in data_feed.iteritems()})

In [7]: volume = DataFrame({tic: data['Volume']
...:     for tic, data in data_feed.iteritems()})

In [8]: returns = price.pct_change()

要确定年收益率百分比并进行分析,可以调用 return DataFrame 方法和 plot 方法。这可以通过调用 sum 对 DataFrame 中的各列求和来实现,该函数执行了大量工作来创建图 1 中所示的图表。

清单 2. 年收益率

In [9]: import matplotlib.pyplot as plt
In [10]: returns.sum().plot(kind='bar',title="% return For Year")
Out[10]: <matplotlib.axes.AxesSubplot at 0x10c1b0350>
In [11]: plt.show()

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Servers/cloud-computing/

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索工具
, easy_install
, pip
, ipython
, pandas
, pip install
, 分析
, python matplotlib
, dataframe
, matplotlib教程
windows下安装ipython
pandas数据分析、pandas 股票分析、pandas 数据分析 pdf、pandas 相关性分析、pandas数据分析案例,以便于您获取更多的相关知识。

时间: 2024-10-29 10:53:02

云中的数据科学:应用IPython 和 pandas 进行投资分析的相关文章

云中的数据科学IPython和pandas进行投资分析

本文将介绍一些使用 IPython 和 pandas 进行投资分析和http://www.aliyun.com/zixun/aggregation/10341.html">统计分析的实际示例. 让我们进行一个常见的分析,您可能自己就可以完成这个分析.假设您想分析股票绩效,那么您可以: 在 Yahoo 金融专区找一支股票.. 下载历史数据,保存为 CSV 文件格式. 将 CSV 文件导入 Excel. 进行数学分析:回归.描述性统计或使用 Excel Solver 工具进行线性优化. 很好,

Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas)

Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas) 如果还没有本地安装Python.IPython.notebook等请移步 上篇Python,IPython,qtconsole,Notebook,Jupyter快速安装教程 本教程是安装二进制文件,以Windows10 64位操作系统为例,但是二进制文件对应其他Linux和mac os也同样试用. 在开始安装之前,请注意以下前提条件.否则,会出现各种问题. 默认机器上已经安装了P

第二热门语言:从入门到精通,Python数据科学简洁教程

Python是一门通用的编程语言,在过去十年中被数据科学领域广泛使用.事实上,Python在数据科学领域是仅次于R的第二热门的编程语言. 本篇文章的主要目的在于向大家展示使用Python学习数据科学有多么的容易.你可能以为自己要先成为一名高级Python程序员,然后才能进行通常与数据科学相关的复杂任务,然而事实并非如此.Python附带了很多有用的工具库,它们可以在后台为你提供强大的支持.你甚至不需要知道程序在运行什么,你不必关心这些.唯一你真正需要知道的是,你需要执行一些特定的任务,而Pyth

技术 | 使用Python来学习数据科学的完整教程

我在SAS工作了5年多之后,决定走出舒适区.作为一名数据科学家,我在寻找其他好用的工具,幸运的是,没过多久,我发现了Python. 一直以来,我喜欢敲代码.事实证明,有了Python,敲代码变得更为容易. 我花了一周时间来学习Python的基础知识,从那时起,我不仅深入钻研Python,而且还帮助许多其他人学习这门语言.起初,Python是门通用语言,多年来,随着社区的大力支持,现在有了数据分析及预测建模库. 由于缺少Python数据科学资源,我决定创建本教程,旨在帮助大家快速入门.在本教程中,

2017年最流行的15个数据科学Python库

Python 近几年在数据科学行业获得了人们的极大青睐,各种资源也层出不穷.数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验,总结了数据科学家和工程师将在 2017 年最常使用的 Python 库. 核心库 1)NumPy 地址:http://www.numpy.org 当使用 Python 开始处理科学任务时,不可避免地需要求助 Python 的 SciPy Stack,它是专门为 Python 中的科学计算而设计的软件的集合(不要与 SciPy 混淆,它只是这

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

数据科学之5个最佳Python库,为初学者定制的教程

如果你已经决定把Python作为你的编程语言,那么,你脑海中的下一个问题会是:"进行数据分析有哪些Python库可用?" Python有很多库可用来进行数据分析.但不必担心,你不需要学习所有那些可用库.你只须了解5个Python库,就可以完成绝大多数数据分析任务.下面逐一简单介绍这5个库,并提供你一些最好的教程来学习它们. 1Numpy对于科学计算,它是Python创建的所有更高层工具的基础.以下是它提供的一些功能: 1. N维数组,一种快速.高效使用内存的多维数组,它提供矢量化数学运

构建你的数据科学作品集:机器学习项目

数据科学公司在决定雇佣时越来越关注你在数据科学方面的作品集Portfolio.这其中的一个原因是,这样的作品集是判断某人的实际技能的最好的方法.好消息是构建这样的作品集完全要看你自己.只要你在这方面付出了努力,你一定可以取得让这些公司钦佩的作品集. 构建高质量的作品集的第一步就是知道需要什么技能.公司想要在数据科学方面拥有的.他们希望你能够运用的主要技能有: 沟通能力 协作能力 技术能力 数据推理能力 动机和主动性 任何好的作品集都由多个项目表现出来,其中每个都能够表现出以上一到两点.这是本系列

Python进行数据科学工作的简单入门教程_python

Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介