数据分析师不是数据科学家

这是关于从事数据科学工作系列帖子中的第二篇。(第一篇请点击这里

误区1:当你变得更有经验时,你可以担任数据分析师的工作,并能够将其发展为数据科学。

数据分析师不是数据科学家的初级阶段,他们是完全不同的两个东西。


数据分析师


数据科学家


与业务员同坐


与工程师同坐(但也谈及业务)


产生报告、简报


产生软件

隔行如隔山,数据分析师想进入数据科学会存在很大的障碍。因为他们没有必备的工具,所以不管他们是否拥有正确的技能,都不能立即开始做数据科学。所谓的必备工具是指:

1.获得完整的生产数据。

2.访问数据工具去做某事(hadop,sparkcompute
instances
)。

3.访问代码code repositories)。

虽然这些东西可以在快速学习获得,但还有其他的东西难以获得:

1.不熟悉公司的技术堆栈(stack)

2.没有对堆栈(stack)/执行功能进行必要更改的任务等。

任何曾经在大公司工作的人都应该明白这一点:你不只是走进一个软件团队。有时需要几个月的培训才能为团队中的新开发人员做出第一个真正的贡献。对于来自不同业务部门的外部人员来说,要做到这一点是闻所未闻的。

误解2:数据分析是数据科学的良好训练

作为数据分析师:

l 你将不会学习机器学习/统计技术,因为它们的准确性和效率都得到了优化,而不是解释能力(这是分析人员所关心的)

另一方面你将会做:

l 探索性数据分析。

l Excel,SQL,也许是一些一次性的R(one-off
R)和Python脚本

我认为数据科学家和分析师有可能使用一些相同的工具,但是他们对于这些工具的用途具有很大的不同。而数据分析师所作的小小技术工作实际上对他们的数据科学教育造成了更多的伤害。


数据分析师的代码


数据科学家的代码


人工操作序列的脚本,点击GUIs等


完全自动化的管道


只有你能看到的代码


代码将被他人使用和维护


一次性的脚本


代码是一个存在的应用程序或预定的管道


代码调整直到它能够一次性运行成功


代码优化性能、可维护性和可重用性

从数据分析师的角度来看,以某种方式做事可能是有意义的,但数据科学的需求是不同的。当前分析师投入到数据科学项目中并开始应用他们多年来发展的模式来看,结果并不乐观。

亲身体验

我曾经加入了一个由分析师和数据科学家领导的项目:我们正在建立一个管道的原型,让客户端的数据上进行一些的机器学习,并显示出漂亮的图表。我加入时面对的第一个问题是:你如何从客户端里获取数据?。过程是:

1.在瑞典发送电子邮件X,查询他在客户端的数据库上运行。X下载一个csv的结果,并把它放在一个FTP服务器上。

2.从FTP下载csv到你的笔记本电脑。

3.将其上传到我们拥有Python的服务器。

4.在服务器上运行一个Python脚本来清理数据(脚本在Y的主目录中)。

5.在笔记本电脑上下载结果。

6.通过GUI将结果上传到我们的数据库。

7.在GUI中运行一个SQL脚本加入我们的其他表。

8.下载结果。

9.上传到我们开发的MySQL数据上。

10.运行另一个SQL(Y在她的笔记本电脑上有脚本)。

11.将数据从MYSQL中拉到服务器上的Rstudio中。

12.在R服务器上做实际的分析。

要想在新的数据上再次运行流水线需要几周的时间(而当时要求的在几秒内),因为他们使用的技术迫使他们只使用1%的可用数据,这个工作流程使任何事情都无法完成。

最重要的是,管道中的每一个脚本都非常变态和脆弱-这就是为什么:面对任务时,分析师将开始编写代码。如果它一开始不起作用,他们会加入并调整它,指导它。一旦产生结果(通常是一个csv文件),他们就进入下一步。没有努力确保可再生性,可重用性,可维护性,可扩展性。以这种方式制作的脚本是充满了硬编码(hard-coded)的数据库口令,魔术常量(Magic constant)和未经测试的关于输入数据的假设,一直通向本地目录。它类似于名叫Jenga Tower的游戏你看着它们表面平静,但是你知道,如果你触摸它,它会崩溃。

如果只是我的同事完全不懂的编码技术,他们将会雇佣一名工程师来完成编码工作,而他们自己也会专注于准备说明书。这种安排也许不是很理想,但我保证结果会好很多。这就是为什么我认为数据分析师的经验不仅是无用的,而且对数据科学也是有害的。

最终,尽管错误不在于分析师,而在于管理(management)和任务的不匹配。也是时候让管理人员知道:

1.   数据科学是软件工程。

2.   软件工程很难。

3.   软件工程界已经开发了一些工具并试着减少它的难度。

4.   你需要一个软件专家来使用这些工具。

5.   在SAS中编写脚本不会使其成为软件专业人员。

结束语

如果你是一名分析师,想要转行到数据科学,我建议你忘记你所学的关于编码的一切,重新开始学习。

如果你是一名研究生,认为数据分析师是为了作为数据科学的培训而存在的,我强烈建议你找一个初级软件开发者的工作。如果你幸运的话,你可能会做一些机器学习,然后进入全面的数据科学。但即使不是这样,几乎所有你在入门级工程学习中学到的东西都会使你成为一名更好的数据科学家。

文章原标题《What They Don’t Tell You About Data Science
2:Data Analyst Roles Are Poison》

作者:Nadbor Drozd

译者:虎说八道。

文章为简译,更为详细的内容,请查看原文

时间: 2024-09-20 06:42:31

数据分析师不是数据科学家的相关文章

CPDA项目数据分析师和CDA数据分析师有什么区别?

 CPDA项目数据分析师和CDA数据分析师有什么区别? 这个问题也是经常问到的,这里我做一个详细的区分.关于CPDA,CPDA全名叫项目数据分析师,在国内做培训比较早,课程内容主要针对的是基于传统企业在投资管理领域的项目分析,类似MBA,以数据支持来进行业务层面的管理和分析,课程包括<量化投资>等知识内容,应该说投资类企业的管理层适合学习CPDA来进行管理层面的分析和指导. 关于CDA,CDA全名是数据分析师,是真正意义上的数据分析,为什么说真正意义,因为一名合格的数据分析师他需要具备的能力有

如何区分数据科学家,数据工程师与数据分析师

与其他一些相关工程职位一样,数据科学家的影响力与互联网同进同退.数据工程师和数据分析师与数据科学家携手共同完成这幅"大数据时代"巨作. 三者之间的定义又是如何区分的呢? 数据科学家是什么样一个存在呢? 通常情况下,数据科学家有数学或物理方面的高等学位.有博士学位的情况并不少见,硕士学位仅是一个前提条件.数据科学家精通统计建模以及如何构建与定制高级数学算法.这既在他们专业范围内,也是他们所擅长的地方.我听到过有人这样形容一个数据科学家"软件工程技能牛过多数人的酷炫统计学家&qu

数据分析师的职业规划之路

◆ ◆ ◆ 导 读 "数据分析师作为一个出现时间不长的工种,大数据时代下,成为螺丝钉还是成为龙头,需要尝试新的可能." ◆ ◆ ◆ 数据分析师的职业规划 数据分析师手中拥有一座宝藏.作为滴滴出行数据分析团队的负责人,刘普成发现了数据分析师通往卓越的秘诀:视野.数据分析提供了这样一种可能:它不是简单的技术工种,它是最具有潜力的一项工作,背后蕴藏着相当多的机会. 刘普成是中国最懂互联网数据分析的人之一.北大ccer硕士出身,做过公务员,这位业界资深的大牛,曾先后任职于百度.豆瓣.豌豆荚,对

如何成为一名数据分析师:必备技能 TOP5

什么是数据分析师(Data Analyst)? 数据分析师指的是不同行业中,专门从事行业数据搜集.整理.分析,并依据数据做出行业研究.评估和预测的专业人员. 他们知道如何提出正确的问题,善于数据分析,数据可视化和数据呈现;辅助公司商业决策,帮助降低成本,提高收益,改进产品,留住客户,发现新的商业机会等.总的来说,根据数据分析师的级别,他们主要的工作内容可能包括以下: 与IT部门,管理部门,数据科学家(Data Scientist)合作,决定整个公司的团队目标 从primary research和

数据分析师是怎么被“养大的”?

就像PM是由产品喂大的一样,数据分析师也是由一个一个成熟且完整的数据分析工作"滋养长大"的~~ 网上讨论数据分析师成长路径的文章很多,大致能够分为:数据分析.初级数据分析师.中级数据分析师和高级数据分析师,每个阶段的能力和工作内容网上资料很多,这里不做介绍.我在本文中想和大家讨论的内容,其实和"培养"二字有关,想和大家聊聊每个阶段的数据分析师需要怎样的成长沃土~ 一.数据分析助理 鉴于梳理该阶段下,分析人员的主要工作可能主要是数据提取.制作日常报表等基础性工作.可见

CDA数据分析师协会等级认证证书

CDA数据分析师协会等级认证证书 (Certified Data Analyst  Certificate) CDA数据分析师证书由CDA数据分析师协会官方颁发,此证书在国内需通过人大经济论坛举办的CDA等级认证考试后获得.此证书可作为企业事业单位选拔和聘用专业人才的任职参考依据.  一.考试简介:  CDA(Certified Data Analyst),全称"注册数据分析师",由"CDA注册数据分析师协会(Certified Data Analyst Institute)

阅览5分钟 教你快速成为数据分析师

文章讲的是阅览5分钟 教你快速成为数据分析师,2016年可以说是大数据市场热火朝天的一年,无论是大型企业.中小型企业纷纷伸长了脖子想要和大数据这个互联网因素浓郁的技术挂钩.许多的企业也走在开始尝试用大数据技术进行转型的路上- 然而"大数据切实利用起来"还是需要落实落地,与几年前我们刚开始接触的Hadoop相比,数据分析变得更重要. 先来看2017大数据行业的五大趋势 物联网(IoT)和大数据是同一枚硬币的两面;数十亿与互联网连接的"物件"将生产大量数据;深度学习是一

七周成为数据分析师—Excel实战篇

本文是<七周成为数据分析师>的第三篇教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Excel,大可不必再看这篇文章,或只挑选部分. 在Excel技巧和Excel函数后,今天这篇文章讲解实战,如何运用上两篇文章的知识进行分析.内容是新手向的基础教程.曾经有童鞋向我反应没有Excel数据练习,所以这次提供真实数据.为了更好的了解数据分析师这个岗位,我用爬虫爬取了招聘网站上约5000条的数据分析师职位数.拿数据分析师进行数据分析.数据真实来源于网络,属于网站方,请勿用于商

七周成为数据分析师—Excel技巧篇

本文是<七周成为数据分析师>的第二篇教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Excel,大可不必再看这篇文章,或只挑选部分. 上一篇文章<七周成为数据分析师-Excel函数篇>教了大家函数,今天讲解Excel的技巧.本次讲解依然是提纲,图文部分引用自百度经验.如果有疑问或建议,可以留言给我,也可以网上搜索.内容方面照旧会补充SQL和Python. 快捷键 Excel的快捷键很多,以下主要是能提高效率. Ctrl+方向键,对单元格光标快速移动,移动到