天龙八步 第二弹:8步从Python白丁到专家,从基础到深度学习

如果你想做一个数据科学家,或者作为一个数据科学家你想扩展自己的工具和知识库,那么,你来对地方了。

这篇文章的目的,是给刚开始使用Python进行数据分析的人,指明一条全面的Python学习路径。这条路径提供了用Python进行数据分析的必要步骤的一个全面概述。如果你已经有了一些基础,或者不需要所有的内容,可以随意调整学习路径以适合自己,并让我们知道你是怎么改动的。

0热身运动
在开始学习之前,第一个需要回答的问题是


推荐这个30分钟的录像,它是DataRobot创始人Jeremy在2014年Python社区大会(PyCon)上的讲话,它能够让你了解Python有多有用。小编注:建议在Wi-Fi连接下观看。



1设置你的计算机
既然你已经下定了决心,是时候设置你的计算机了。最简单的方法是直接从Continuum.io下载Anaconda,它含有你Python生涯中需要的绝大多数好东东 。


https://store.continuum.io/cshop/anaconda/

这样做的主要缺点是,即便有一些底层包已经有更新版本的时候,你还是需要等待Continuum更新Anaconda中的包。如果你只是刚刚开始,那这一点就不算是个问题。如果在安装时遇到任何困难,你可以在下面这个网站找到在不同操作系统下安装的详细指引。

http://www.datarobot.com/blog/getting-up-and-running-with-python/

2学习基本知识
你应该从了解Python语言、库和数据结构的基础知识开始,这个来自Codecademy的教程是你开始学习的最佳选择之一。

http://www.codecademy.com/tracks/python

在学完这个教程后,你应该可以轻松地用Python写些小程序,并且对类和对象的含义也有了理解。

特别学习:Lists(列表),Tuples(元组),Dictionaries(字典),列表的内涵和字典的内涵。

完成作业:完成在HackerRank上的教程习题。这些作业应该能让你的大脑因Python而“燃烧”。

备用资源:如果交互式编程学习不适合你,你也可以看看这个Google上的Python课程。这个两天的课程,内容覆盖了随后会提到的一些内容。

https://developers.google.com/edu/python/。

3学习正则表达式

你将会大量使用它来进行数据清洗,特别是在处理文本数据。学习正则表达式的最好方法是完成这个课程

https://developers.google.com/edu/python/regular-expressions

并把这个“夹带”(当然不是考试的小抄,是速查表)放在随手可得的地方。

小编注:请上网站查看完整内容。

www.debuggex.com/cheatsheet/regex/python

完成“婴儿取名”练习


https://developers.google.com/edu/python/exercises/baby-names

如果想(gou)要(dan)更多的练习,请学习这个文本清理的课程。该课程将会在数据清理的不同步骤给你挑战。


http://www.analyticsvidhya.com/blog/2014/11/text-data-cleaning-steps-python/。

4学习Python科学库
有趣之事,始于此处!这里,简要介绍不同的Python科学库——NumPy, SciPy, Matplotlib和Pandas。那么,让我们开始练习常用操作吧!

 完整地练习NumPy操作课程,特别是NumPy的数组操作。这会建立一个好的基础,为将要面临的现实挑战做准备。

http://wiki.scipy.org/Tentative_NumPy_Tutorial

 接下来,看看SciPy的课程。完整学习简介和基础知识部分,剩余部分可根据个人需要进行学习。

http://docs.scipy.org/doc/scipy/reference/tutorial/

 如果你猜下一个是Matplotlib教程,那就错了!就我们目前的情况而言,它们太过全面了。事实上,把ipython笔记看到第68行(到animations)就基本可以了。


http://nbviewer.ipython.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-4-Matplotlib.ipynb

 最后,我们来看Pandas。它为Python提供了数据帧(DataFrame)的功能,类似于R语言。你也需要在这上面多花时间好好练习。对于所有中等规模的数据分析来说,Panda将会成为最有效的工具。从这个短小的10分钟入门开始,了解一下Pandas。然后,... ...


http://pandas.pydata.org/pandas-docs/stable/10min.html

然后,再看更详细的课程


http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/。

你还可以看看“用Pandas进行探索性数据分析”(http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/)以及“用Pandas进行数据整合”(http://www.analyticsvidhya.com/blog/2014/08/baby-steps-python-performing-exploratory-analysis-python/)两篇文章。

其它资源:

 如果你需要一本有关Pandas和NumPy的教材,推荐Wes McKinney著的《Python for Data Analysis》

 下面这个网站,还有很多的教程可作为Pandas的学习材料。


http://pandas.pydata.org/pandas-docs/stable/tutorials.html

完成来自哈佛大学CS109课程的作业。


http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW1.ipynb

小编注:回复 可视化 查看【数据科学之5个最佳Python库】,了解关于这些科学库的更多介绍和学习资源。

5有效的数据可视化
学完这个来自CS109的课程,你可以跳过前面的两分钟,接来下的内容非常精彩!


http://cm.dce.harvard.edu/2015/01/14328/L03/screen_H264LargeTalkingHead-16x9.shtml

跟着课程完成下面课程作业


http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW2.ipynb

6学习Scikit-learn和机器学习
现在,我们来到了整个过程的实质部分。Scikit-learn是在Python中对机器学习最有用的库。

学完来自哈佛大学2014年的CS109课程中第10讲到第18讲。你会全面了解机器学习,监督式学习算法(如回归、决策树、整体建模等)和非监督式学习算法(如聚类等)。切记,跟随每一讲,完成作业。


http://cs109.github.io/2014/pages/schedule.html

其它资源:

 如果有一本必读的书,那就是《Programming Collective Intelligence》,非常经典,仍然是关于这方面最好的书之一

 另外,如果你需要技术上更清晰的解释,可以选择Andrew Ng(这位大牛的课,不该不知道吧?)课程 ,用Python完成其中的习题


https://www.coursera.org/course/ml

 Scikit-lean的教程(这个不能忘)

试着完成Kaggle上的这个挑战

http://www.kaggle.com/c/data-science-london-scikit-learn

7练习,练习,再练习
祝贺你,你做到了!现在,你已经拥有所需要的全部技能,只差练习了。哪里会有比在Kaggle上练习更好呢?上Kaggle与跟你一样的数据科学家一较高下。去吧,参加一个在Kaggle上正在举办的实时比赛吧!试试你所学到的全部知识!


http://www.kaggle.com/

8深度学习
终于看到这个,兴奋吧?!现在,你已经学到了绝大多数关于机器学习的技术,是时候试试深度学习了。很有可能你已然知道什么是深度学习,万一仍然需要一个简要介绍,可以看看这个。


http://www.analyticsvidhya.com/blog/2014/06/deep-learning-attention/

对于深度学习,我也是个新手,就请把这些建议当作参考吧。最全面的资源在deeplearning.net上,在那里,你会找到所有的东西——讲座、数据集、挑战和教程。


http://deeplearning.net

如果想要了解神经网络的基本知识,试着学习Geoff Hinton(这个大牛,你应该也是知道的吧)的课程


https://www.coursera.org/course/neuralnets

篇外话假如你需要面向大数据的Python库,请试试Pydoop和PyMongo。由于“大数据的学习路径”本身就是一个完整的话题,因此,本文并未涉及。

原文发布时间为:2015-04-19

时间: 2024-07-29 21:13:20

天龙八步 第二弹:8步从Python白丁到专家,从基础到深度学习的相关文章

网站优化之天龙八“部”(上)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 这两个月很认真在学习和专研SEO,同时激励人心的是看到了自己在网站优化方面有了明显的进步,但是革命始终没成功,还需继续努力!我也时常在告诉自己进步使我更加坚定前进的脚步,挫折也会使我充满斗志! 时常听到其他的SEOER说,做网站优化要如何如何做,要做到哪些关键的步骤.不难看出有些只是道听途说,也有些确实是真才实干出来的经验之谈.今天,漠阳子也

斯坦福深度学习课程第二弹:词向量内部和外部任务评价

像追美剧一样追课程! 大数据文摘已获斯坦福大学深度学习课程CS224d翻译授权, 重磅启动"斯坦福深度学习课程CS224d"的翻译工程, 所有译文将会免费发布,计划每周发布1篇. 期待你的加入,加入要求见文末 报名请点击文末"阅读原文". 大数据文摘作品,转载需授权 翻译:熊杰 王昱森   调整校对:寒小阳 龙心尘 特别鸣谢:曾宪超 大数据文摘"机器学习"专栏介绍 本文为大数据文摘机器专栏推出的[数据科学/机器学习]学习分享项目启动篇,我们将以S

MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务. MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力. MaxCompute基于ODPS2.0新一代的SQL引擎,显著提升了SQL语言编译过程的易用性与语言的表达能力.我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章 第一弹 - 善用MaxCompute编译器的错误和警

织田裕二《黑田康作》推第二弹与伊藤英明合作

伊藤英明在电影<安达路西亚>中的剧照 新浪娱乐讯 北京时间2月28日消息,据日本媒体报道,因为今年1月男星织田裕二主演的富士台日剧<外交官黑田康作>获得了很高的人气,因此黑田康作系列将于6月推出剧场版第二弹<安达路西亚>,影片由西谷弘执导,伊藤英明将在片中饰演织田裕二的对头搜查官神足诚. 去年伊藤英明和织田裕二主演的电影<海猿>和<跳跃大搜查线>成为日本电影的票房冠亚军,这两位人气男星的合作的<安达路西亚>十分令人期待,一直期待和织田

闹鬼软件锁屏精灵,万圣节第二弹温柔来袭

万圣节来临之际,受网络上一款名为"鬼屋梦魇"闹鬼软件引发的"闹鬼事件"的影响,这几天让该款软件着实火了一把,而关于这款软件真正的名字也逐渐浮出水面--锁屏精灵! &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 锁屏精灵是一款免费的.趣味十足的手机锁屏软件.它集趣味解锁.丰富场景.快捷功能.酷炫动画.安全性于一体,让你的手机锁屏动起来!一直秉承"只做精品的锁屏&qu

关于cocos2d的问题啊啊啊第二弹

问题描述 关于cocos2d的问题啊啊啊第二弹 解决方案 检查你的这些路径是否存在.另外就是你的环境变量的设置. 解决方案二:

《一起来八》第二位代班主播做客节目,现场推算星座命盘

海都网讯 谢霆锋和张柏芝会再婚?昆凌会成为周杰伦的"优乐美"?林书豪竟然和凤姐最般配?昨天,<一起来八>第二位代班http://www.aliyun.com/zixun/aggregation/1484.html">主播做客节目,不仅带来了神秘的"星座牌",现场占卜明星姻缘,同时,这位星座达人"嘎嘎"还现场推算星座命盘,算出了今年鸿运当头的多个星座,并给出了星座行运建议. 在本期节目里,"嘎嘎"还感

开发人员面试题目分享(来看看不一样的面试题吧)【第二弹】

第一弹的地址在这里: 开发人员面试题目分享(来看看不一样的面试题吧)[第一弹]   直接说第二弹的题目, 这些题目都是环环相扣,由浅入深的(您看到很浅的题目,千万别笑,继续往下看)   第一排: 第一题:设计一个多对多关系的表结构,比方说一个老师有多个学生.一个学生有多个老师,一般需要几张表? 第二题:在这三张表中有一张表是关系表,关系表中需要什么字段? 第三题:假设老师表中有两个老师,其中一个老师有三个学生,另一个老师没有学生,我要查出"所有老师和这些老师的学生",怎么写这条SQL语

“疯狂猜”第二弹 安卓版疯狂猜歌强势来袭

玩腻了<疯狂猜图>?那就来试试<疯狂猜歌>吧!疯狂猜系列第二弹现已强势登陆安卓平台.玩法和画面都与<疯狂猜图>如出一辙,不同的是这次是通过聆听歌曲的旋律猜歌名.你是音乐达人吗?快下载一个试试吧![点此进入安卓版<疯狂猜歌>全答案攻略]简约而不简单的<疯狂猜歌>,零难度上手.同样保留了使用金币去掉一个错误答案.给出一个提示,和分享至微信求助三种方式,轻松与朋友们互动,共同闯关.安卓版<疯狂猜歌>画面安卓版<疯狂猜歌>画面你是