数据科学部门如何建立

 很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河。O‘reilly Strata今年 六月份发布了报告 《Analyzing the Analyzers 》,比较清晰的阐述了数据科学部门所需要的不同角色及其技能。重点内容翻译如下:

数据科学家的分类研究方法

自我认识

请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个XX” 这样的问题,能够获得数据科学家的自我认识结果。调查结果将数据科学家分为以下四类:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。

技能需求

请被调查者对数据科学家所需的以下22项技能进行排序,分析不同类型的数据科学家的技能要求。其中的ML是机器学习的简写,OR指运筹学(Operations Research)

将它们结合起来分析

根据受访者的自我认知和技能排序,可以识别出不同类型的数据科学家所需要的技能。

数据科学家的类别

Data Businesspeople

Data Businesspeople 往往专注于组织管理和如何从数据项目中产生利润。他们往往将自己定位为领导或创业者,约 80% 的 Data Businesspeople 承担员工管理的责任。Data Businesspeople 还可能是咨询服务或合同类服务的提供者。Data Businesspeople 学历相对较高,大约 60% 拥有硕士以上学位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科学位的背景。Data Businesspeople 往往操作真实数据,90% 以上偶尔会操作 GB 级别的数据。与其他数据科学家相比,Data Businesspeople 年龄稍微偏大,接近四分之一是女性(相比略高),仅有四分之一的 Businesspeople 把自己称为数据科学家(相比略低)。

Data Creative

数据科学家往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。而 Data Creative 则是其中能力最广泛的数据科学家,他们能够综合使用各种工具和技术解决问题、能够像黑客马拉松那样创新产品原型,是典型的万事通型人才。与其他类的数据科学家相比,Data Creative 更具艺术家风范。与 Data Researcher 相似,Data Creative 也有丰富的的学术经验,大约 3/4 拥有院校授课或发表论文的经历,一般拥有经济学和统计学等领域的学位。但不同之处在于,仅有较少的 Data Creative 拥有博士学位。Data Creative 具有深厚的业务经验,80% 的 Data Creative 按合同工作(接项目?);40% 创立了企业,甚至比 Data Businesspeople 还多。Data Creative 还被认为是黑客。他们往往还可能有深厚的开源经验,业余为开源项目和开放数据项目做贡献。Data Creative 相对更年轻,男性更多。有意思的是,他们也是最积极的回应我们最后一个问题的:“你觉得本次调查是否对你有用?”

Data Developer

Data Developer 专注于解决数据管理的技术问题 —— 如何获取,存储,以及学习。Data Developer 更倾向于将自己评价为科学家(在这一点上仅次于 Data Researcher)。对于那些从事机器学习和相关的学术研究的人来说,这是当然合理的。但是,还有一些 Data Developer,每日的工作仅仅是日复一日的开发代码。半数 Data Developer 具有计算机科学或计算机工程学位,约一半人为开源项目作出过贡献。更多 Data Developer 会强调自己具有机器学习/大数据技能。部分 Data Developer 做过咨询工作,承担过管理岗位、或为开放数据项目做出过贡献。

Data Researcher

走向“数据科学家”头衔的职业生涯路径中,最有趣是从在学校研究物理或社会科学开始,也有统计学专业的。许多组织已经深刻认识到,即使这些学生在校期间所学专业与企业业务领域完全不同,但他们被训练出的利用数据了解复杂过程的能力仍然极具价值。大部分具备统计技能的受访者,自认为是 Data Researcher。近 75% 的 Data Researcher 在同行评审期刊上发表过文章,半数以上拥有博士学位。(心理和政治科学学位也有可观的数字)。Data Researcher 很少创业,而且仅有半数具有管理经验。

关于大数据

下图描述了对于不同数量级数据集处理的调查结果:大多数数据科学家很少直接操作 TB 级以上的数据。

T 型数据科学家

大多数成功的数据科学家既有丰富的专业经验,还至少在数据科学的某一方面深入钻研,如统计,大数据,或业务沟通等。这就是20世纪90年代提出的所谓的“T形技能”模式:“T”字母顶部的横表示广博技能,而竖线表示在某个区域的深度钻研。T形人才能够更容易融入跨学科团队,也能够更高效地工作。数据科学领域与生俱来就具有协作性和创造性,那些成功的专业人士能够与数据库管理员,商务人士,以及其他具有多种互补工作技能的人合作,以使数据项目以创新的方式完成。

Data Businesspeople 具有顶级的商业能力,其他能力较弱。Data Researcher 往往具有非常深的统计相关技能,但一般说来,他们对于机器学习/大数据,商业,和编程技巧却相对低。Data Developer的模式可以被称为“π形”,拥有强大的编程技巧,较强的机器学习/大数据相关技能,而其他三个技能相对中庸。最后,Data Creative 是不像T形结构的,所有技能相对平均,既不最强,也不最弱。

数据科学家和组织结构

数据人才来自哪里?

70% 的受访者至少拥有硕士学位,而科学领域的(社会学或物理学,而非数学、计算机、统计、或工程学科)达40%。

科学领域的研究生以上教育,提供了对真实数据的动手实践,不仅仅描述现象,还要评价理论和辨析立场。物理学和天文学教授了严格的统计思维,而粒子加速器和太空望远镜系统则提供了大量的需要小心处理的数据流。硬科学背景为任何类型的数据科学家,尤其是Data Developer提供了良好的培训。

另一方面,有人认为,社会科学也培养了大量的数据科学家。心理学家,经济学家,政治学家,以及其他组织,他们在工作中需要处理的来自真实世界的混乱的,嘈杂的数据。这些领域的数据科学家可以快速清理和汇总数据,利用先进的统计技术来理解因果关系,并深入思考有关数据可视化,展示和沟通的问题。我们在 Data Researcher 和 Data Creative中看到很多这样的受访者。

经典计算机科学(机器学习)和应用统计学位也是非常有效的数据科学家的起点。机器学习的重点是大规模数据处理和算法、结合软件开发技能,自然应用于真实世界组织数据。许多应用统计学科则将咨询能力、专业领域知识、以及关键方面有效的数据科学结合在一起。

还有不少学校也开始培养一些新兴的学位,如分析、数据可续、商务智能硕士等。

大多数当前的数据科学家往往涉足过多个领域,在不禁意之间获得了广泛而深入的领域知识。

从理论到实践:实习和指导

帕蒂尔(2011)建议 “招收哪些刚刚走出大学校园的聪明而有创意的人才,再把他们投入非常严格的实习计划中去。” 对于拥有足够预算,以及高级人才辅导项目的大型组织,这样做可能效果不错,但对于小公司,它的实用性似乎不太好。

对于小组织来说,有个可行的替代方式(DataGotham 2012年)—— 聘请专业的顾问,帮助招聘、培训、再整合和指导新鲜出校的数据科学家。DonorsChoose.org 意识到,雇佣数据科学家收集数据,在完成其慈善使命中具有巨大价值,他们与专家团队一同工作达5个星期完成雇佣。雇佣之前,专家帮助这个非营利性组织了解到数据科学家的作用,随后帮助新员工培训和指导,并设置了启动项目的成功路径。数据科学家的广泛的能力将对小组织非常有用,但必须有像这样创新的方法以确保其有效性。

团队和组织架构

首先,我们的数据显示,数据科学家应该是T形人才,具有多样技能,需要在技能互补的团队中最有效率。(达文波特 2010;帕蒂尔 2011)。而不明白这一点的组织往往期望聘请一个可以做到一切的“神”。

其次,组织需要建立自己的数据科学团队,以有效的开展工作。数据科学团队即需要直接访问原始数据,也需要与决策者沟通。根据我们的分析,他们具备需要多方面的技能才能充分利用数据。他们还需要得到流程管理的支持,采纳和使用其结果。当数据科学团队的产出被期望为具有完整的生命周期的软件系统时,那么这个团队中就必须拥有足够的资源去进行测试,部署和系统维护,这一点至关重要。虽然我们的受访者都或多或少有一些编程技巧,并能够承担这类任务,但期望大多数 Data Businesspeople 或 Data Researchers 能够高效完成这些,还是个不现实的期望。在大型组织里,在数据科学团队上的资金投入,与其他团队之间的管理关系协调,包括数据基础设施和IT员工,确实能够实现价值。(达文波特,2010年)

职业发展

企业中的数据科学家的角色不是一成不变的,也需要职业发展的晋升机会。具有多年数据科学家经验的员工,非常有价值,也非常难于替代。将工程师提升为领导角色需要充分衡量利与弊,还要考虑资深员工不想从事管理岗位的各种变数。在我们的调查者中,62%的承担着管理责任;这个数据能够显示有多少数据科学家愿意管理团队,而不是视管理为烦恼。

在大型组织中,保留数据科学家的另一个有趣的潜在方法是设立轮岗计划(达文波特,2010年)。在入职培训之后,数据科学家可以在内部团队有计划的转岗。产品部门可能需要个性化用户模式;市场部门需要在可控实验(controlled experiments)方面的帮助;财务部门需要预测;运营部门需要流程优化。通过直接加入不同部门,数据科学家能够了解关键业务的价值观和技能,专注于部门最需要帮助的问题,并以最小代价提供解决方案。而且,通过阶段性轮岗,数据科学家可以获得更宝贵的技能和宽阔的视野,不断提升其数据科学技能。


原文发布时间为:2013-09-07


时间: 2024-09-19 23:56:06

数据科学部门如何建立的相关文章

分析分析师:数据科学部门如何建.

很多大公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河. O 'reilly Strata今年 六月份发布了报告 <Analyzing the Analyzers>,比较清晰的阐述了数据科学部门 所需要的不同角色及其技能.重点内容翻译如下: 数据科学家的分类研究方法 自我认识 请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 "我觉得自己是一个XX" 这样的 问题,能够获得数据科学家的自我认识结果.调查结果将数据科学家分为以下四类:Data B

如何构建一个高效的数据科学部门

这篇文章在Hacker News转载后产生很热烈的讨论,主要是从工程师的角度来看问题,讨论了很多有关人员管理和团队分工等一些很现实的问题.不是所有人都同意文中的观点和解决方案,也有很多人写出了自己的经历来佐证作者的想法.争议主要在于ETL工程师的工作价值以及不同职责间的分工问题. "您的团队和贵公司数据科学家之间关系如何?"我在面试数据平台工程师时,这绝对是我听到的最多的一个问题.这是个好问题,提问者可以有效的衡量这个新职位的好坏.我很乐于回答这个问题.不过我宁愿这个问题不出现,因为面

工程师要不要写ETL?——教你构建高效的算法/数据科学部门

前言 在很多互联网公司的算法相关部门(例如搜索.推荐.广告)里,都有"做算法的"和"做工程的"两个工种.这个看似天经地义的分工方式是否就是最优的方式?这似乎还是存在一些争议的. 这篇文章阐述了一种当前较为普遍合作模式下的问题,译者觉得说得很在点上.更宝贵的是,作者同时也提出了一种可能会更好的合作模式,能够解决这些问题. 需要提前说明的一点,文中的"数据科学家"可理解为我们常说的偏算法的工程师,而文中的"工程师"或者"

新加坡政府数据科学部门如何利用大数据协助诊断环线地铁故障

本文发表于新加坡政府开放数据门户站的博客,经授权由InfoQ中文站翻译并分享,本文由InfoQ社区编辑刘志勇翻译,感谢译者的辛苦奉献. 撰文: Daniel Sim | 分析: Lee Shangqian.Daniel Sim.Clarence Ng 编者按:大数据正在渗透各行各业,甚至能跟你考试能力测试.患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系.今后大数据在我们的生活中就像是水和电一样,让社会整个信息质量更好.让信息利用效率更高效. 世界著名未来学家托夫勒曾说改变这个世界的力量

解密 Airbnb 的数据科学部门如何构建知识仓库

Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法.我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体验.最近,我们开始解决一个令人头疼的问题.随着组织的扩大,如何确保我们如何确保一个洞见有效地通过社交网络,这在我们内部称之为知识扩张. 当我们团队仅由几个乐于分享和发现研究技巧的人组成这不是什么难题.但是当我们团队开始快速扩张时,这个问题一下就被放大了.Jennifer是一位新来的数据科学家,她正在研究如

在twitter搞数据科学是怎样一种体验?

2015年6月17日是我在Twitter工作两周年的纪念日.回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: · 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联之上的Scala领域特定语言,便于详细描述Hadoop MapReduce任务--译者注)编译的. · 组织结构上,数据科学家和产品经理.工程师的工作环环相嵌,合作之密切史无前例. 以上只是众多改变中的一小部分.拿我来说,我的研究领域最近从Growth延伸到PIE (Prod

在Twitter“玩”数据科学是怎样一种体验

◆ ◆ ◆ 引子  2015年6月17日是我在Twitter工作两周年的纪念日.回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: 许多Twitter的非机器学习主导的核心产品中,机器学习的比重正在不断增加(例如"While you were away" 功能--Twitter把你下线时可能错过的头条推文推送到你的个人首页). 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联之上的Scala领域特定语言,便于详细描述Hadoo

4种数据科学工作,8项求职技能

[专题众筹] 为了更好的服务广大读者,大数据文摘发起<手把手教你XXX>专题众筹活动,XXX可以是"数据营销""数据运营""可视化""数据安全""数据治理"等系列文章,希望有能力愿分享的朋友一并参加,与我们一道推动数据思维.数据文化的传播.我们筹集的是大家的经验和时间,给大家的回报是(1)为各位参与者提供一个交流平台(2)文摘愿意免费宣传有贡献者个人及团队.有意者,请后台留言报名,谢谢! &qu

Airbnb数据科学团队进化论:如何由内而外实现数据驱动

虽然团队组织结构的演化允许数据科学家团队繁荣兴旺,但是公司的成功源于"精准定位"于两件事:发自肺腑地关爱员工,积极主动的数据驱动决策.不论是开发可持续利用的开源工具还是奋力改进数据科学部门的多样性,Airbnb数据科学团队负责人Alok很清楚,Airbnb追求的事都要贯彻这两个原则. ◆ ◆ ◆ 超级增长:短短几年,从5到70+数据科学家 在2013年,Airbnb只有一个5人数据科学团队,集中地为公司的数据需求提供服务.此后,他们成长为最大的.也是最有创意的创业团队之一,拥有超过70