想成为数据科学家?你得先读读这篇文章

市场营销学者Kevin Gray对肯纳索州立大学研究生院副院长、统计学及数据科学教授Jennifer Priestley做了一个采访,请教数据科学究竟是什么、一个好数据科学家应具备哪些品质以及如何成为一个好的数据科学家,访谈全文如下。

Q:您能否用简单、外行人也能听得懂的话向我们解释数据科学?

A:我认为Slack的数据工程总监Josh Wills给出的定义非常恰当——“(数据科学家是)擅长统计学的软件工程师与擅长软件工程的统计学家的混合体。”,我还想在这里加上我本人的“Priestly推论”:“(数据科学家是)擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。

Q:统计学家和数据科学家之间的区别是什么?

A:这是个好问题。我也经常被问到计算机科学家和数据科学家之间的区别是什么。事实上这两个学科也都在探索隐藏在数据中的新内涵。虽然二者都对数据科学这一新生领域作出了令人瞩目的贡献,他们并非完全独立的。

数据的增长不仅体现在其规模上,还体现在我们对数据这个词定义的延伸上。举个例子,文本和图像已成为日益常见的数据形式并被纳入分类及风险建模等分析范畴中。对数据定义的延伸迫使统计学和计算机科学从各自的传统核心领域进入边缘领域——在这样的边缘领域里,新的思路开始萌发——两个学科在边缘领域的融合成为了数据科学的基础。

统计学的多数传统核心内容还未做好处理以十亿为单位的记录及非结构化数据的准备。同样,计算机科学的核心领域虽然擅长高效获取并存储大量结构化和非结构化数据,但在通过建模、分类和可视化等形式将数据转换成信息的能力上存在短板。

我同意统计学家在数据科学界容易处于弱势的说法。我认为这很不幸。几年前,“简单统计学”(SimplyStatistics)博客发布了一篇名为《为什么大数据陷入了麻烦:他们忘了运用统计学》的文章。这篇文章指出了人们兴冲冲地倒腾机器学习、文本挖掘、神经网络却忽视与数据行为(behavior of date)密切相关的变量、置信度、分布等基本统计学概念,导致了糟糕的决定。虽然数据科学不是统计学,但统计学为这门学科贡献了基础方法。

Q:我们中绝大多数人直到最近几年才听说过数据科学。您能否向我们简要介绍它的历史?

A:这个词最早是计算机科学家Peter Naur在1960年提出的观点,但“数据科学”在统计学中也留下了进化的种子。1962年,John W. Tukey(我们那个年代最为人所熟知和尊敬的统计学家之一)写到:“在很长一段时间里,我认为我是一个统计学家,致力于通过特定样本推断总体的面貌。但自从我看到了数理统计的进化,我发现我真正感兴趣的领域是数据分析……数据分析本质上是一门经验科学。”

1996年,国际分类学联合会(IFCS)在第五次大会中首次使用了“数据科学”一词。大会标题为“数据科学,分类及相关方法”。 1997年,吴建福教授(目前在佐治亚理工学院)在密歇根大学统计系就任H. C. Carver讲席教授的公开演讲中呼吁将统计学更名为数据科学,统计学家更名为数据科学家。

2002年发生了一件数据科学的关键里程碑事件,第一本学术同行评论期刊《数据科学学报》(Data ScienceJournal)正式创刊。此后又出现了其他几个期刊,专门促进和传播这一领域的学术研究成果。

专门的学术期刊的出现对于学术界来说尤为重要——这些期刊促成了新的博士课程(比如我们的)和学术部门,为相关研究、奖学金和发表提供了平台。现在数据科学教师和博士生可以在自己的圈子里——而不是计算机科学、数学、商学的圈子里——开展研究和分享。

Q:2011年麦肯锡作出了一项广为人知的研究预测,在2018年“仅美国一国就会面临14万到19万具备深度分析能力人才的缺口,与此同时存在至少150万名懂得如何运用大数据做出有效决定的管理人员和分析师的缺口。”这个预测有多准确?我们现在有其他替代方案吗?

A:我被问到这个问题很多次了——具体来说,许多公司高管问过我诸如“数据科学这事是否只是一时的风潮?”的问题。我想我们应该重新给这个议题划个框架。

我的观点是,我们不需要具有深刻的分析能力的“19万人”或“150万管理者”。我认为每个人都需要有一定程度的分析技能。我认为基础分析素养应该像阅读、数学一样成为我们的教育体系的基础部分。如今看到越来越多小学里也开始教授基础的编程技巧让我备受鼓舞。在大学的层面,我认为数据科学应成为基础课的一部分。(我现在可以听到我们的教务办公室的人在大喘气了)。

所以,虽然目前的人才缺口是实实在在的,但这是与市场需求不符的教育制度的造成的。各级教育正在转向,并很可能在可预见的将来继续下去。我预计在一代人中,对这些技能的需求不会减少,但供给方面会与之匹配得更密切。

Priestley推论:“数据科学家擅长对数据分析结果进行商业解释的科学家与擅长数据分析的MBA的混合体”。

Q:许多人,包括那些考虑到职业生涯中期转型的人,已经把目光投向了数据科学。但恐怕并非所有人都适合走这条路。请问数据科学工作中需要哪些能力和技能?成为数据科学家的最佳途径有哪些?

A:这是个绝佳的问题。我们需要做些什么来让我们的下一代准备好,但实际情况是,从20多岁到40多岁的人里很多人正在寻找机会转行进入数据科学领域工作。

我在办公室看到很多这样的人。我已经有不止一次遇上“我刚刚为了拿一张数据科学的文凭向XX大学付了一万美元......而我还是找不到工作”之类的对话。虽说这些“文凭”中的一些很有含金量,但悲剧的是,大部分都是垃圾。

首先,你不能指望通过参加一个5天结业拿文凭的课程就从诗人变成数据科学家。指望线上的远程课程就更不靠谱了。

第二点,我认为人们需要对他们完成自己的职业目标要付出的努力抱有正确的期望。这些技能之所以被如此热切的需要并能给你带来高薪是因为它们很难——你最最起码也得主动学习和精进。

第三点,我认为人们需要清楚他们目前的技能有哪些,他们的目标是什么。这个问题的答案将决定你如何实现目标。那些受到了简单的在线证书课程诱惑并深陷其中的人应该想想爱丽丝梦游仙境里的那只Cheshire猫 - “如果你不知道要去哪里,走哪条路都没用”。

我对向询问这一领域相关问题的人给出以下建议:

  • 如果你是个想转行做数据科学的诗人——我是说正儿八经地的投入它并以一种深刻而有意义的方法将它作为你的事业——你需要放下你的羽毛笔,拿出你的牛仔裤和背包,上全日制的学校课程。大多数数据科学研究生课程时间不超过两年,其中多数会提供各种形式的研究生助学金。你应该争取参与包括编程,统计,建模的项目。而且还有充足的机会与当地公司,非营利组织,地方政府等等一起进行真正接地气的项目。

我觉得怎么强调实际操作、自己动手,实际经验对一切数据科学项目的重要性都不为过。这就是为什么在线/短期证书课程对于想在这一领域从头开始的人来说不起作用。直接上手做项目会帮助你们了解数据科学的更多潜在方面 - 如讲故事的作用,创造力(很遗憾地被忽视了)和项目管理。

  • 如果你是个计算机科学家/程序员,就去找找带有分析课程或者经常使用统计学的商学院课程。你的编程和数学技能多半是他们需要的——你则可能需要上些统计/建模/分析的课程——以及(又一次被)培训如何讲述故事,并学习如何在和你有不同想法的人组成的团队中工作。
  • 我会鼓励所有人去学习Tableau之类的基本的数据可视化工具。我同时鼓励所有人定期参加线上/异步编程课程。这些课程都很便宜(有的还不要钱)并能让你保持犀利的技术。

我的观点是,并不是每个人都想成为一名计算机程序员——我就不是特别喜欢编程。我是为了获得我的研究问题的答案而不得不去学编程。如果我能用我信赖的HP-12C计算器和自动铅笔就找到答案的话那我早那么做了。在21世纪里,你必须对基础数学有所了解,你必须能够阅读、写作并胜任基本编程的工作。

Q:数据科学家常谈到在许多组织里,管理层并不真正知道如何将分析手段运用于决策制定。决策制定仍然多数取决于直觉并且很大程度上受到公司政治的影响。您是否有相同经历?

A:我经常对公司事务发表评论,只要问题发生,不管它多不引人注意我都会发表意见。我划分了谈话框架——组织可以大致分为原生数据组织和非原生数据组织两类。

“原生数据公司”是那些现在占据头条以及股票市场的公司,如亚马逊、谷歌、脸书。这些公司在30年前不可能存在。不仅仅因为作为他们存在和运营模式基础的数据在当时并不存在,还因为即使他们做了,当时也不能获取足够的计算能力或执行与人工智能、机器学习、深度学习等方式相关的深度分析方法让这些公司从事他们现在正在做的业务。

然而,这些公司的另一个维度往往被忽视:由于它们是原生于数据本身,也因此在企业文化上受到了巨大的影响。它们是从组织图的顶部到底部都由数据驱动的公司。数据贯穿于他们整个公司的DNA。大多数进入这些公司的人都有以数据为中心的方向——并且可能会研究一个计算学科——越来越侧重于数据科学。脸书、谷歌的员工年龄中位数是29岁,亚马逊则为30岁(不包括仓库员工)。

“非原生数据公司”是在我们听到诸如“数据科学”和“大数据”这样的术语很久以前就取得成功的公司。例子包括沃尔玛和Arby’s。它们都是非常成功的公司,成立之初并没有数据贯穿于其DNA。

虽然这些公司现在已经大力侧重将数据用于公司决策及提供产品和服务,但与建立在计算文化上的组织架构有巨大的不同。这些公司的管理层非常有前瞻性,他们把自己的公司转变为以事实为基础、用数据做驱动的组织,从而在市场上获得了领先者地位。他们各自市场上的对手们(希尔斯百货,梅西百货 ... 麦当劳,温蒂快餐)则没有。

Q:最后一个问题,您认为人工智能和自动化在未来10-15年里对数据科学造成怎样的影响?

A:我并非这一领域的专家,但我认为做出任何预测统计学、计算机科学或数据科学会因自动化而消亡的预言都为时过早。计算器只是让数学计算“自动化”……但是如今的数学比以前的计算要更广阔也更复杂。我期待在数据科学的领域中也是一样。

原文发布时间为:2017-11-13

本文作者:文摘菌

时间: 2024-10-31 10:56:39

想成为数据科学家?你得先读读这篇文章的相关文章

如果想成为数据科学家,请学习这3种语言

随着大数据的应用与发展,各行业对具有数据科学技能的开发人员的需求持续增长.而希望成为数据科学家的技术人员需要学习如何融入这个领域的职业生涯. 寻求扩大在技术领域的技能?据技术招聘网站Indeed Prime主管Shu Wu介绍,目前对拥有数据科学技能的开发人员的需求目前"非常强劲",过去四年来,数据科学家的职位需求"大幅增长". Shu Wu说:"数据科学家就业前景看好,平均薪酬很高,但成为数据科学家是很艰难的.数据科学家是一个研究数据的伟大的专家,能够使

想当数据科学家?看看你有没有这5种特质

[51CTO.com快译]数据科学事业正在蓬勃发展,各行各业对技能熟练员工的需求越来越高.调查发现,出色的数据科学家拥有一些相似的特征,这让他们从人群中脱颖而出. 当今社会对数据科学家的需求缺口很大,这个技能短缺仍将持续几年.根据IBM的研究,2020在美国的所有数据的专业人员每年的职位空缺数量从36.4万增加到272万.另一项调查显示,到2020年,对数据科学家.数据开发者.数据的工程师等新岗位的需求量将有接近70万的缺口. 许多公司发现,自己寻找合格的候选人仅能满足业务的技术要求.然而,仅仅

想了解APT与加密勒索软件?那这篇文章你绝不能错过……

目前全球APT攻击趋势如何?针对APT攻击,企业应如何防护?针对最普通的APT攻击方式加密勒索软件,现今有何对策?带着这些疑问,51CTO记者采访到APT攻击方面的安全专家,来自亚信安全的APT治理战略及网关产品线总监白日和产品管理部总监徐江明. APT攻击成头号网络安全杀手 自2010年开始,APT攻击就已经成为取代传统黑客攻击的一种非常重要的攻击手段,而且呈现出愈演愈烈的形势.白日认为,目前,在攻击形态上,其主要呈现为一个非常简易的.最普通的APT攻击方式--恶意加密勒索软件.在攻击目标上,

重磅:如何不花钱就成为数据科学家?

从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据.数据科学和预测分析都是最热门的话题. 每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切.数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛. 根据领英(Linkedin)的数据,"统计分析"和"数据挖掘"是今年求职者能被雇佣的头两个技能.高德纳咨询公司表示,

大数据工具,在数据科学家眼中是怎样的存在?

随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道. 数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化.但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度. 更强的计算能力 数据科学家们通常喜欢把后端技术扔给工程师来处理.当你的主要关注点是提高模型的预测精度或发现一个数据集中的未知相关性时,文件系统和资源管理工具通常情况下并不十分友好. 但随着大数据工具数量的增长和计算能力的飞跃,数据科学

《数据科学家修炼之道》一1.3 数据科学的诞生

1.3 数据科学的诞生 数据科学领域起源于揭示大数据中潜在的价值,以及克服之前提及的4个V的挑战.这在过去是可以通过组合先进的现代计算设备达到的.特别地,并行计算.复杂数据分析流程(主要是通过机器学习)以及低成本的强劲计算能力使这种需求变成可能.此外,在不远的将来,不断加快的IT基础架构以及技术进步将使我们可以产生.收集以及处理更多的数据.通过这些,数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题.这也就是说,大数据在一定程度上是可以被管理并至少能够提供一些有

想去机器学习初创公司做数据科学家?这里有最常问的40道面试题

导读   想去机器学习初创公司做数据科学家?这些问题值得你三思! 机器学习和数据科学被看作是下一次工业革命的驱动器.这也意味着有许许多多令人激动的初创公司正在起步成长.寻找专业人士和数据科学家.它们可能是未来的特斯拉.谷歌. 对于有职业抱负的你来说,看好一家好的创业公司团队后,如何能够脱颖而出,进入一家靠谱的创业团队呢? 想得到这样的工作并不容易.首先你要强烈认同那个公司的理念.团队和愿景.同时你可能会遇到一些很难的技术问题.而这些问题则取决于公司的业务.他们是咨询公司?他们是做机器学习产品的?

想成为炙手可热的数据科学家,经验比学历重要!

数据科学家正快速崛起成为21世纪的科技界巨星,这多少要归功精准预测美国大选的统计学家席佛(Nate http://www.aliyun.com/zixun/aggregation/3440.html">Silver),以及以数据分析掀起棒球战术革命的德波戴斯塔(Paul DePodesta) ,他们让埋首数字的数学专家从书呆子进化成明星,但多年来,各界都在争论数据科学家的工作与统计员有何差异. 随着资料科学领域不断成长,许多公司企业更迫切希望延揽自己的数据科学家.但,许多人可能意料不到的是

想学大数据?10条激励人心的数据科学家名言

几年前,哈佛商业评论说数据科学家的是"二十一世纪最性感的工作".但你知道做一个数据科学家意味着什么吗?来,我们先看看这些数据科学专家的名言. Data scientists "tend to be "hard scientists", particularly physicists, rather than computer science majors. Physicists have a strong mathematical background,