天龙八步：8步让你变成数据科学家

OK, 这些步骤不是那么简单。但是，它们都是可操作的，并且大多数步骤都是免费或者花钱很少，只是要你投入时间。

首先，什么是数据科学家？数据科学，是一个多学科知识的交集，甚至包括黑客技巧。数据科学家，是比软件工程师更擅长统计学，比统计学家更擅长软件工程的人。目前，数据科学家的典型教育背景是：高中5%，技校5%，大专14%，本科37%，硕士/专业学位31%，博士9%。

第一步：学好统计、数学和机器学习

数学：可汗学院（Khan Academy）的数学，MIT公开课的线性代数；统计学：Udacity和Openintro；机器学习：Stanford在线中吴恩达（Andrew NG）的机器学习，Coursera上John Hopkins的实用机器学习

第二步：学习编写代码

掌握计算机科学的基础知识；掌握从头至尾的开发过程（end-to-end development），因为你做的东西终将被整合到其它系统中；确定你的首选编程语言，开源的R , Python等，商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。

第三步：理解数据库

作为学生，你会经常与文本数据打交道。但是，一旦进入该领域，你会发现该领域几乎都是用数据库存储数据，如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。

第四步：掌握数据整理、可视化和报表制作

1）数据整理，是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程，实用工具有DataWrangler和R。

2）数据可视化，是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。

3）数据报表，作为数据分析的最后一步，是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。

第五步：提升到大数据级别

当你开始处理网络级规模的数据时，数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题，都无法在单机上完成。他们面对的是需要分布式处理的大型数据集，使用的工具是Hadoop，MapReduce，Apache Spark。

第六步：获得经验、实践，结交大牛

［古人云：］熟能生巧！你可以参加比赛，结交数据科学专家，通过小项目小试牛刀，培养自己的直觉。

第七步：实习、实战、或找份工作

甄别自己是不是一个真正的数据科学家的最佳途径，就是用你新学的知识迎难而上，进入数据分析的丛林。

第八步：关注并参与社区

关注网站：DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers；关注大牛：Hilary Mason, David Smith, Nate Silver, dj patil; 需要数据？上quandl看看。

完整信息图

原文发布时间为：2015-03-22

时间： 2024-09-13 05:32:51

天龙八步：8步让你变成数据科学家的相关文章

网站优化之天龙八“部”（上）

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅这两个月很认真在学习和专研SEO,同时激励人心的是看到了自己在网站优化方面有了明显的进步,但是革命始终没成功,还需继续努力!我也时常在告诉自己进步使我更加坚定前进的脚步,挫折也会使我充满斗志! 时常听到其他的SEOER说,做网站优化要如何如何做,要做到哪些关键的步骤.不难看出有些只是道听途说,也有些确实是真才实干出来的经验之谈.今天,漠阳子也

一步一步学ROP之linux_x64篇

一步一步学ROP之linux_x64篇一.序 **ROP的全称为Return-oriented programming(返回导向编程),这是一种高级的内存攻击技术可以用来绕过现代操作系统的各种通用防御(比如内存不可执行和代码签名等).上次我们主要讨论了linux_x86的ROP攻击:<一步一步学ROP之linux_x86篇>,在这次的教程中我们会带来上一篇的补充以及linux_x64方面的ROP利用方法,欢迎大家继续学习. 另外文中涉及代码可在我的github下载:https://githu

一步一步学会系统发布

跟着牛腩老师做完发布系统,所有的结局都已写好,一场初雪,美的让我忘了还欠她一个美丽的转身--发布,但是小编呢,今天不以牛腩老师的新闻发布系统为例,以考试系统为例,跟小伙伴分享系统发布的点点滴滴.最近小编接手了一个高大上的任务,考试系统维护,用我小伙伴的话来吐槽一下就是:被考试系统折磨的不成人样了.维护工作是极大耐心的.从头到尾读着别人写的代码,复制别人的想法,做着自己的维护......是不是每个搞维护的都有要抽死coder的冲动"你丫写些什么,说好的注释代码2:1呢!"

一步一步学Silverlight ：使用样式封装控件观感

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章带您快速进入Silverlight 2开发. 本文为系列文章第八篇,主要介绍在Silverlight中使用Style元素封装控件观感 Silv

【机房重构】一步一步往上爬——七层中的那些事

机房重构开始已经一个多星期了,从最开始的理解登录到现在已经成功完成至少一次的"增"."删"."改"."查"的操作,现在在七层的这个大环境下,从最开始的奄奄一息,终于变得生龙活虎起来了. 之前总是听师哥师姐们说,敲完登录一条线了,后面就会很顺利了.可是,从我来说,事实并非如此.然而,磕磕绊绊,四个字足以形容我的这些天.不过,我心态好,我可以忍受一个人花时间调代码的孤独,再说,我也可以找小伙伴.找师父帮助我,我有什么理由不成功.

一步一步写算法（之算法总结）

原文:一步一步写算法(之算法总结) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 自10月初编写算法系列的博客以来,陆陆续续以来写了几十篇.按照计划,还有三个部分的内容没有介绍,主要是(Dijkstra算法.二叉平衡树.红黑树).这部分会在后面的博客补充完整.这里主要是做一个总结,有兴趣的朋友可以好好看看,欢迎大家提出宝贵意见. (1) 排序算法快速排序合并排序堆排序

图文教程，8步教你变身数据科学家

调查发现,数据挖掘和分析技能已经在"2016年最希望学会的职业技能"排名中位列第二,不难看出,数据科学正成为一种流行职业. 从行业内部的蓬勃发展,到招聘会上HR们的大声宣传,我们都可以看出,数据科学家已经成为当下最炙手可热的职业之一. 行业专业人士分析,未来几年数据科学岗位缺口将达到数百万.不仅仅是顶级科技公司需要数据科学家,未来各行各业都会需要设立数据科学相关岗位,来帮助他们发展. 工作岗位有了,但是可以做这些工作的人却很少.数据科学行业急需人才,但是现实情况却不容乐观,虽然大批大批

一步一步写算法（之八皇后）

原文:一步一步写算法(之八皇后) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 八皇后是一道很具典型性的题目.它的基本要求是这样的:在一个8*8的矩阵上面放置8个物体,一个矩阵点只允许放置一个物体,任意两个点不能在一行上,也不能在一列上,不能在一条左斜线上,当然也不能在一条右斜线上. 初看到这道题目,大家的第一印象是遍历,但是经过实践之后发现遍历其实不好写,而且复杂度很低.不仅需要遍历8*8*8*8*8*8*8*8*8

天龙八部：一张图告诉你如何8步炼成数据科学家

如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路. OK, 这条道路确实不是无迹可寻的.虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成. 接下来的这张精美的可视化长图从什么是数据科学家说起,然后详细介绍炼成数据科学家的8个步骤.拿好不谢~ 首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧.数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人.目前,数据科学家的典型教育背景是:高中5%,

猜你喜欢

用ASDM管理思科PIX防火墙

ASDM是思科提供的自适应安全设备管理器一.ASDM的按装 1.登录到PIX并且进入启用模式:"pix> enable" 2.进入启用模式之后,输入命 ...

如何使用Ubuntu 12.04作为日常的电脑环境

搜狗输入法出来之后,我觉得有必要写一篇博客说明一下,如何使用Ubuntu作为日常的电脑系统.我使用的Ubuntu版本是12.04,没有使用Ubuntukylin,因为的电脑比较老,使用那个版本,电脑有 ...

ASP.NET技巧：DataGridView 的分页处理

asp.net|datagrid|分页|技巧只是解决DataGridview刷新慢的办法.如果要考虑效率,还是结合分页的"存储过程"比较好,只是变通了一下. 1 ...

再谈关键词筛选与关键词布局的重要性

上篇文章详细讲解了站点关键词选择与关键词布局技巧,受篇幅限制,在如何筛选关键词和筛选关键词的误区未能尽说,这篇文章以另一视角分析关键词筛选与布局的重要性.本文将从以下几个方面进行详谈,看完本文后两个方 ...

360图片搜索Beta版上线试用感想

据360搜索页面显示,360搜索的子产品360图片搜索12月24日正式推出bate版,自从360搜索推出后,就在不断完善其产品,提高360搜索引擎的用户体验.下面笔者就对试用360图片搜索Beta版的 ...

网站外链要适可而止用户体验是根本

刚石头在百度新闻里搜了下"SEO"这个关键词,本来想看看别人的SEO技术文章.却发现了一个不寻常的现象,第一页居然没有donews的新闻源了,石头平常喜欢在百度新闻里找文章看.大家 ...

SEM之医疗PPC的手四两拨千斤的高转化着陆页

笔者在2月14日的<SEM之医疗SEO的目光瞄准搜索引擎身后的用户>一文,侧重于从用户体验的角度来执行SEO的各种策略.有朋友询问,医疗SEO或者是SEO应该以什么目标为主.笔者觉得这个问 ...

View与Frame的分离

Wow!! 几篇让人拍案的文章,啃完之后大呼过瘾!想不到微软也有如此精通windows编程的家伙?! 此时此刻,俺想到的是分享给KBASE里的兄弟们啊! 没的说,掌声伺候!!!! [NOTE]: 罗头 ...

算法题：poj 2541 Binary Witch(KMP水过，逆序转换)

链接: http://poj.org/problem?id=2541 分析与总结: 做这题估算了下复杂度,觉得无论KMP再怎么快,这题暴力也肯定要超时的. 想了很久也没想出个好办法,于是决定暴力之,但 ...

QQ五笔输入法如何设置提示功能

QQ五笔输入法设置提示功能的方法如下: 词语联想:根据用户输入的词语,自动联想出后续可能输入的候选词;可以设定是否用回车键来取消联想框. 提示系统已有词组:开启后,单字输入词组时,会提示系统已有这 ...

新浪微电台功能介绍

1.本地区节目:当前用户所在地区电台正在播放的节目; 2.当前热门节目:全部电台在当前时间段正在热播的栏目; 3.上周热门节目排行榜:上周全部电台所有节目中,收听人数最多网友互动最热烈的节目; 4 ...

电脑CPU温度过高 cpu使用率较高怎么办

cpu使用率高是网民经常遇到的问题,CPU使用率高其实就是你运行的程序占用的CPU资源,说明你的机器在这个时间上运行了很多程序.长期使用会让CPU长时间处于高热状态会对影响cpu寿命产生点影响,CPU ...

局域网打印机共享怎么设置？如何设置打印机共享？

局域网打印机共享怎么设置?如何设置打印机共享? 要实现两台打印机或者是多台打印机共享,首先要了解如何设置并共享局域网内有打印机电脑的打印机,之后需要解决的是局域网内其它电脑如何找到刚才那台电脑共享出去 ...

如何禁用某些软件

很多公司都不允许在上班的时间使用聊天软件,例如QQ.如果直接将QQ卸载,也是可以再重新安装的,或者把软件安装到其他位置. 可以利用组策略来解决,在"组策略"中展开"计 ...

写日志的那些事儿

写日志简介一般提到写日志,主要有下面几种不同的场景: 诊断日志:应用打印异常信息,排查问题用,一般是给人看的,输出格式会比较随意,里面可能会有异常堆栈,或者排查问题用的一些文本信息: 数据日志:一般 ...

oracle-oravcle sql语句转换为mysql sql语句

问题描述 oravcle sql语句转换为mysql sql语句请问在oracle中的插入语句是insert into ACT_HI_ACTINST (ID_ PROC_DEF_ID_ START_ ...

谈西联取款经历及光大银行和邮政储蓄的服务效率

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅人间四月天,春暖花开时,在被谷歌的 ...

使用嵌入式开发板实现对车位锁控制的流程及程序实现

随着城市化进程的加快,新能源汽车呼之欲出.在笔者所在的城市,力帆和长安等公司都先后推出了可供市民租用的电动汽车.在享受租车所带来的便利的同时,汽车的充电就成了一个难题,在城市道路和停车场安装充电桩成为 ...

PS打造质感黄金立体字效果

效果图 1.首先是立体模型的构建,如果你会3DMAX,则可以通过这个软件先建一个立体模型,再转到PS上来做后期处理,如果不会这个软件,那么就是考验你空间立体构建能力了,通过钢笔勾出&quo ...

java操作excel使用jxl如何控制数据行数

问题描述 java操作excel使用jxl如何控制数据行数 java操作excel使用jxl如何控制数据行数,当数据量达到1000条,就新建一个excel,不是新建excel中的sheet表哦!如何实 ...

清除cookies的批处理(bat)_DOS/BAT

这是个小技巧,把手动清除cookies的几步折合成了一步. 第一步:在桌面上新建一个文本文件为"一步清除cookies.txt",把扩展名改为bat,即"一步清除cook ...

CentOS下PHP安装Oracle扩展_php技巧

环境 System:CentOS 6 PHP: 5.3.28 下载Oracle客户端 32位系统 64位系统复制代码代码如下: oracle-instantclient-sqlplus-10.2. ...

日均十亿级别的数据如何做到秒导、秒查？

讲师介绍曹犟神策数据CTO 曾就职于百度,拥有数据收集.传输.建模.海量处理.分析.应用等实践经验,曾任极路由数据总监. 很多朋友想知道神策分析是如何实现在每天十亿级别数据的情况下能做到秒级 ...

jquery ui-JQuery UI里面怎么在模态窗体里面设置最大化和最小化按钮，以及设置层的透明度

问题描述 JQuery UI里面怎么在模态窗体里面设置最大化和最小化按钮,以及设置层的透明度 $("#modelDiv").dialog({ autoOpen: false, wi ...

DB2 BLU加速器功能简介

嘉宾简介冯媛: IBM资深软件工程师 2005年至今一直从事DB2相关工具开发,包括IBM Data Studio Admin Console, InfoSphere Optim Perform ...

google in-app-billing应用测试提示：需要验证身份，你需要登录自己的goog

问题描述 google in-app-billing应用测试提示:需要验证身份,你需要登录自己的goog 这个账号已加入开发者控制台的测试账号,所使用的账号在google play已发布的in-app ...

Java8中CAS的增强

几天前,我偶然地将之前写的用来测试AtomicInteger和synchronized的自增性能的代码跑了一下,意外地发现AtomicInteger的性能比synchronized更好了,经过一番原因 ...

近5成投资者认为7月行情会见顶

数据来源:大智慧投票箱近期在银行.保险.地产以及煤炭石油等权重指标股持续做多的影响下,上证指数时隔一年之后再度回升到3000点上方.与此同时,深成指也回到了12000点上方.从板块方面看,受到信贷规 ...

redis安装、配置、使用和redis php扩展安装教程_数据库其它

redis是一个内存数据库,比memcache支持更丰富的value类型,新浪微博就使用redis来做缓存. redis的源码安装复制代码代码如下: wget http://download.re ...

网站被搜索引擎降权的优化误区

优化无非是为了获得关键词的排名这一目标,而在我们的优化道路上,只有坚持我们的正确的优化目标,加上一定的技术和方法,最终才能达到预期的优化结果.因此如何避免在优化过程犯一些不必要的错误就显得尤为重要.因 ...

热搜