你和真正的数据科学究竟差在哪里

Data Scientist,数据科学家,太火了,已经成为新一代改变世界的职业,引得每一个人都想往这个方向转。

学 CS 的觉得做码农太底层,给人打工,要转数据科学家,完美。

学统计的觉得这个不需要过多的 Coding,适合自己,要转数据科学家,完美。

学商科的觉得终于自己也可以成为科学家了,要转数据科学家,完美。

似乎每个人都觉得自己可以成为,应该成为,也一定能够成为一名数据科学家。

然而现实呢?

一片混乱。

“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it” — Dan Ariely

人们的想象之中的独角兽

几乎所有赞美数据科学家的人,都认为数据科学家是这样一类人:

  • 精通算法。例如各种机器学习算法(聚类,分类,NLP,CV,IR, etc.),理解统计的原理。
  • 全栈开发能力。能够完成从数据清洗,到产品上线的全部工作,且能做各种数据可视化与报表。
  • 有资深的领域知识。了解行业背景,企业运行规律,懂得 Business、Marketing、Finance、Operations 等等知识,能够帮助企业做决策。
  • 除了技术能力要求高,同时还要有相当的软实力,比如沟通和写作的能力,比如领导团队的能力等等。

哇,真是全能的独角兽。

可能有这样的人吗?当然,这个世界这么大,出几个超牛的人并不是没有可能。

你可以追求成为这样一个人,但是认为所谓数据科学家就等于这一类人,并没有什么意义。

但是,从现实角度来讲,你并不需要成为这样一个人才能为企业带来价值。大量和数据相关的职责都被认为是和数据科学家相关的,因此,更重要的是,找到合适自己的位置,使用新技术解决问题,创造收益。

两类数据科学家

是的,Data Scientist 并不是一个 Well Defined 的职位,在每个公司的职责都不一样。但是,不论怎么样,这个世界上不可能凭空出现一个职位:这个职位所解决的问题是以前从来没出现过的,也没人知道该怎么解决的。或许我们可以慢慢逼近人们想象中的那个全能的独角兽,但现在,数据科学家所担当的职责,一定会跟现有的职位大量的重合。

现实中的数据科学家是怎么样的呢?常见的数据科学家被分为两类。引用 Quora 上 Michael Hochster的一个回答:

Type A Data Scientist: The A is for Analysis. This type is primarily concerned with making sense of data or working with it in a fairly static way. The Type A Data Scientist is very similar to a statistician (and may be one) but knows all the practical details of working with data that aren’t taught in the statistics curriculum: data cleaning, methods for dealing with very large data sets, visualization, deep knowledge of a particular domain, writing well about data, and so on.

Type B Data Scientist: The B is for Building. Type B Data Scientists share some statistical background with Type A, but they are also very strong coders and may be trained software engineers. The Type B Data Scientist is mainly interested in using data “in production.” They build models which interact with users, often serving recommendations (products, people you may know, ads, movies, search results).

我对于这两类的理解稍有出入,但也大体相同:

Type A 数据科学家:偏 Analysis,一切为数据驱动的决策服务。主要的工作是在清理数据,做分析,找 Insight,做 Report 等等。可以说是某类升级版的 Analyst 或者 BD。

一方面这意味着对你的你要求跟做 BD 或 Analyst 的要求一样甚至更高,对市场了解如何?对行业了解如何?对公司运作了解如何?而所谓 Machine Learning 等工具只是技术与手段,能够帮助更好地解决问题,但是问题有哪些,才是根本的问题。

另一方面传统 Analyst 不足的地方在于随着数据越来越大,越来越复杂,如果要更快更准,需要使用更好的模型(机器学习等),在更原始的数据中探索与分析,不能只等待其他人把数据都处理好。因此需要更强的数据处理、分析能力和对于新模型、工具的掌握和理解。

往这个方向发展,要补齐 Marketing、Business、Finance、Operation 等知识,同时掌握各种机器学习的算法与工具。

Type B 数据科学家:偏 Research & Product,在算法即产品的职责下让算法能够与产紧密结合,甚至主导算法驱动的产品。主要的工作是把算法从 Research 做到 Product。

一方面要对各类机器学习的算法了解足够深刻,了解各种机器学习算法的常见应用(NLP,CV,Recommendation,IR,etc.)。同时对工程要求更高,毕竟做 Prototype 和上 Production 是完全不一样的。

另一方面要对产品的需求有更深层次的理解,以及了解公司的业务逻辑,因为随着不少算法的成熟,产品的需求已经不仅仅来自于 product-market-fit,而是来自于算法本身的进步,因此能够把成熟的算法推向产品是非常重要的能力。

往这个方向发展,Coding 的要求与所有通用 Software Engineering 的要求一样,该修 CS 课可能一样都不能少,同时要能了解公司的业务逻辑,更好地推动产品的上线,让不可能变成可能。

职业生涯的起步与发展

既然典型的数据科学家是两类,那么对照着这两类对自己的技能树查缺补漏就行。要么补业务知识,要么补代码能力,要么补机器学习相关的技术与工具。总之,不要一味追求所谓的新算法,而没有基础的分析或者工程能力,这样并不能解决任何问题,也不能带来任何价值。

从一位分析师或者程序员开始职业生涯,都是很好的选择。

然而,职业生涯的追求肯定不是一个 Title,而是某些能力,对照着理想中的独角兽差缺补漏,确实是非常好的办法。

本文作者:AI研习社

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-26 10:22:24

你和真正的数据科学究竟差在哪里的相关文章

2016美国大选预测失败意味着什么?14位专家帮你分析数据科学的未来

雷锋网按:2016年眼看就要结束,外媒KDnuggets近期就机器学习.人工智能.大数据.数据科学和预测分析等领域在2016年取得的主要发展,以及2017年可能发生的变化趋势,询问了业内诸多的专家学者,组成了一个系列文章.昨天,雷锋网(公众号:雷锋网)编译了其中关于大数据的文章:<大数据领域在2016年都有哪些成果及趋势?听听8位专家怎么说>,今天带来关于数据科学和预测分析的部分. 本文中一共采访了14位数据科学和预测分析领域的专家.除了表示大数据和预测分析技术将在2017年度得到更大的发展之

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

如何构建一个高效的数据科学部门

这篇文章在Hacker News转载后产生很热烈的讨论,主要是从工程师的角度来看问题,讨论了很多有关人员管理和团队分工等一些很现实的问题.不是所有人都同意文中的观点和解决方案,也有很多人写出了自己的经历来佐证作者的想法.争议主要在于ETL工程师的工作价值以及不同职责间的分工问题. "您的团队和贵公司数据科学家之间关系如何?"我在面试数据平台工程师时,这绝对是我听到的最多的一个问题.这是个好问题,提问者可以有效的衡量这个新职位的好坏.我很乐于回答这个问题.不过我宁愿这个问题不出现,因为面

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况.本次调查收到了 16000 多份答卷,庞大的调查数据为我们提供了有关从业者.业界最新动态以及如何进入该行业的数据支撑.以下报告包括本次调查的几个主要结果,其中包括: 尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言. 数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同.例如,印度受访者的平均年龄要比澳大利亚的小 9 岁. 被调查者教育程度最多是

什么是数据科学?如何把数据变成产品?

未来属于那些知道如何把数据变成产品的企业和个人. --麦克·罗克德斯(Mike Loukides) 据哈尔·瓦里安(Hal Varian)说,统计学家是下一个性感的工作.五年前,在<什么是Web 2.0>里蒂姆•奥莱利(Tim O'Reilly)说"数据是下一个Intel Inside".但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术.企业和独特技能集合. 互联网上充斥着"数据驱动的应用"

快问快答 | 助教带你学习数据科学(附答疑视频领取)

Q: 可以推荐一本完全零基础的python书看一下吗?我没有数据基础. A: <简明Python教程> Q:在校生,想搞明白未来的职业发展. A:我看数据科学相关的岗位有,比如:数据分析,数据挖掘,机器学习,自然语言处理,计算机视觉,深度学习工程师等等,还有推荐算法.搜索算法. 我觉得咱们的培养目标和数据挖掘.机器学习这两个岗位的要求更贴近.当然,像数据分析.自然语言处理.计算机视觉.深度学习,推荐算法等等这些岗位,就是更专业一点,或者说更垂直一点. 我一直觉得机器学习目前还不是一种通用技术,

《Python数据科学实践指南》——导读

前 言 为什么要写这本书 我接触大数据技术的时间算是比较早的,四五年前当大数据这个词火遍互联网的时候,我就已经在实验室里学习编程及算法的知识.那个时候我一心想要做学术,每天阅读大量的英文文献,主要兴趣更多的是在机器人和人工智能上.研究生毕业时我本来想实现早先的愿望,继续攻读博士学位,不过思来想去觉得不应该错过大数据这个机会,所以毅然决定投入大数据行业中. 在工作之初,市面上已经存在一些介绍大数据相关技术的权威著作,其中很多还是很底层的或特定领域的专著.但即使是我这种自诩为"学院派"的人

《Python数据科学实践指南》一导读

前言 为什么要写这本书 我接触大数据技术的时间算是比较早的,四五年前当大数据这个词火遍互联网的时候,我就已经在实验室里学习编程及算法的知识.那个时候我一心想要做学术,每天阅读大量的英文文献,主要兴趣更多的是在机器人和人工智能上.研究生毕业时我本来想实现早先的愿望,继续攻读博士学位,不过思来想去觉得不应该错过大数据这个机会,所以毅然决定投入大数据行业中. 在工作之初,市面上已经存在一些介绍大数据相关技术的权威著作,其中很多还是很底层的或特定领域的专著.但即使是我这种自诩为"学院派"的人看

大数据:13个真实世界情景中的数据科学应用

现在让我们看看13个在真实世界情景下的例子,了解现代数据科学家可以帮助我们做些什么.这些例子将有助于你学习如何专注于一个问题和如何形式化一个问题,以及如何仔细评估所有潜在问题--总之,是学习数据科学家在提出解决方案之前,如何定位问题和进行战略性思考.你也会看到为什么一些广泛使用的技术,如标准回归,可能并不适合所有情况. 数据科学家的思维方式不同于工程师.运筹学专业人士.计算机科学家.虽然运筹学涉及很多分析,但这一领域的焦点是具体业务优化层面,如库存管理和质量控制.运筹学涉及国防.经济.工程.军事