天龙八步:8步让你变成数据科学家

OK, 这些步骤不是那么简单。但是,它们都是可操作的,并且大多数步骤都是免费或者花钱很少,只是要你投入时间。

首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的典型教育背景是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%。

第一步:学好统计、数学和机器学习

数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数;统计学:Udacity和Openintro;机器学习:Stanford在线中吴恩达(Andrew NG)的机器学习,Coursera上John Hopkins的实用机器学习

第二步:学习编写代码

掌握计算机科学的基础知识;掌握从头至尾的开发过程(end-to-end development),因为你做的东西终将被整合到其它系统中;确定你的首选编程语言,开源的R , Python等,商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。

第三步:理解数据库

作为学生,你会经常与文本数据打交道。但是,一旦进入该领域,你会发现该领域几乎都是用数据库存储数据,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。

第四步:掌握数据整理、可视化和报表制作

1)数据整理,是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程,实用工具有DataWrangler和R。

2)数据可视化,是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。

3)数据报表,作为数据分析的最后一步,是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。

第五步:提升到大数据级别

当你开始处理网络级规模的数据时,数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题,都无法在单机上完成。他们面对的是需要分布式处理的大型数据集,使用的工具是Hadoop,MapReduce,Apache Spark。

第六步:获得经验、实践,结交大牛

[古人云:]熟能生巧!你可以参加比赛,结交数据科学专家,通过小项目小试牛刀,培养自己的直觉。

第七步:实习、实战、或找份工作

甄别自己是不是一个真正的数据科学家的最佳途径,就是用你新学的知识迎难而上,进入数据分析的丛林。

第八步:关注并参与社区

关注网站:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers;关注大牛:Hilary Mason, David Smith, Nate Silver, dj patil; 需要数据?上quandl看看。

完整信息图

原文发布时间为:2015-03-22

时间: 2024-09-13 05:32:51

天龙八步:8步让你变成数据科学家的相关文章

网站优化之天龙八“部”(上)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 这两个月很认真在学习和专研SEO,同时激励人心的是看到了自己在网站优化方面有了明显的进步,但是革命始终没成功,还需继续努力!我也时常在告诉自己进步使我更加坚定前进的脚步,挫折也会使我充满斗志! 时常听到其他的SEOER说,做网站优化要如何如何做,要做到哪些关键的步骤.不难看出有些只是道听途说,也有些确实是真才实干出来的经验之谈.今天,漠阳子也

一步一步学ROP之linux_x64篇

一步一步学ROP之linux_x64篇 一.序 **ROP的全称为Return-oriented programming(返回导向编程),这是一种高级的内存攻击技术可以用来绕过现代操作系统的各种通用防御(比如内存不可执行和代码签名等).上次我们主要讨论了linux_x86的ROP攻击:<一步一步学ROP之linux_x86篇>,在这次的教程中我们会带来上一篇的补充以及linux_x64方面的ROP利用方法,欢迎大家继续学习. 另外文中涉及代码可在我的github下载:https://githu

一步一步学会系统发布

       跟着牛腩老师做完发布系统,所有的结局都已写好,一场初雪,美的让我忘了还欠她一个美丽的转身--发布,但是小编呢,今天不以牛腩老师的新闻发布系统为例,以考试系统为例,跟小伙伴分享系统发布的点点滴滴.最近小编接手了一个高大上的任务,考试系统维护,用我小伙伴的话来吐槽一下就是:被考试系统折磨的不成人样了.维护工作是极大耐心的.从头到尾读着别人写的代码,复制别人的想法,做着自己的维护......是不是每个搞维护的都有要抽死coder的冲动"你丫写些什么,说好的注释代码2:1呢!"

一步一步学Silverlight :使用样式封装控件观感

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章带您快速进入Silverlight 2开发. 本文为系列文章第八篇,主要介绍在Silverlight中使用Style元素封装控件观感 Silv

【机房重构】一步一步往上爬——七层中的那些事

机房重构开始已经一个多星期了,从最开始的理解登录到现在已经成功完成至少一次的"增"."删"."改"."查"的操作,现在在七层的这个大环境下,从最开始的奄奄一息,终于变得生龙活虎起来了. 之前总是听师哥师姐们说,敲完登录一条线了,后面就会很顺利了.可是,从我来说,事实并非如此.然而,磕磕绊绊,四个字足以形容我的这些天.不过,我心态好,我可以忍受一个人花时间调代码的孤独,再说,我也可以找小伙伴.找师父帮助我,我有什么理由不成功.

一步一步写算法(之 算法总结)

原文:一步一步写算法(之 算法总结) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com]       自10月初编写算法系列的博客以来,陆陆续续以来写了几十篇.按照计划,还有三个部分的内容没有介绍,主要是(Dijkstra算法.二叉平衡树.红黑树).这部分会在后面的博客补充完整.这里主要是做一个总结,有兴趣的朋友可以好好看看,欢迎大家提出宝贵意见.       (1) 排序算法     快速排序           合并排序     堆排序

图文教程,8步教你变身数据科学家

调查发现,数据挖掘和分析技能已经在"2016年最希望学会的职业技能"排名中位列第二,不难看出,数据科学正成为一种流行职业. 从行业内部的蓬勃发展,到招聘会上HR们的大声宣传,我们都可以看出,数据科学家已经成为当下最炙手可热的职业之一. 行业专业人士分析,未来几年数据科学岗位缺口将达到数百万.不仅仅是顶级科技公司需要数据科学家,未来各行各业都会需要设立数据科学相关岗位,来帮助他们发展. 工作岗位有了,但是可以做这些工作的人却很少.数据科学行业急需人才,但是现实情况却不容乐观,虽然大批大批

一步一步写算法(之八皇后)

原文:一步一步写算法(之八皇后) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com]     八皇后是一道很具典型性的题目.它的基本要求是这样的:在一个8*8的矩阵上面放置8个物体,一个矩阵点只允许放置一个物体,任意两个点不能在一行上,也不能在一列上,不能在一条左斜线上,当然也不能在一条右斜线上.     初看到这道题目,大家的第一印象是遍历,但是经过实践之后发现遍历其实不好写,而且复杂度很低.不仅需要遍历8*8*8*8*8*8*8*8*8

天龙八部:一张图告诉你如何8步炼成数据科学家

如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路. OK, 这条道路确实不是无迹可寻的.虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成. 接下来的这张精美的可视化长图从什么是数据科学家说起,然后详细介绍炼成数据科学家的8个步骤.拿好不谢~ 首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧.数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人.目前,数据科学家的典型教育背景是:高中5%,