一张图看懂数据科学家、数据工程师和软件工程师之间的区别

大家都知道,这三种角色各有不同定位,也知道他们之间有许多一致的地方,但是否能讲明白这其中的区别呢?

国外 ETL 服务商 Stitch 的 CEO Jake Stein,近日对这个话题进行了总结。他还绘制了一张工具图,来呈现他们在日常工具使用上的不同。对于新手,也可以通过这张图来看典型的“数据科学家”、“数据工程师”和“软件工程师”都要掌握哪些工具。

Jake Stein:随着数据的爆炸式增长,对数据处理的专家技能需求也随之井喷。这带来的结果之一,是更精细的分工。对于数据管理工作的核心角色:数据科学家、数据工程师和软件工程师,过去几年见证了他们越来越清晰的定位。

对于新兴职位“数据工程师”,它算是“软件工程师”下面新浮现出的一个子类别。单列出该职位是一项英美近年来的趋势。但在许多公司,迁移、管理数据仍旧是软件工程师的活。

三种数据职位的不同技能需求

职能概括

软件工程师

软件工程师干的活儿是开发应用和系统。这过程中的每一个环节,从设计、写代码、测试到检查,开发者都要参与。生成数据的产品都是他们开发的。软件工程是三个角色中最古老的一个,并且有相当成熟的方法体系和工具库。

工作内容包括:

  • 前端、后端开发
  • 网页应用
  • 移动应用
  • 操作系统开发
  • 软件设计

数据工程师

数据工程师需要开发能对数据进行整合、存储和提取的系统,并从软件工程师开发的应用和系统中获取数据。数据工程的诞生,是作为软件工程大类下的一个更细分的技能类别。据雷锋网了解,根据国外统计,40% 的数据工程师原本是软件工程师。雷锋网获知,这是目前一个很普遍的职业发展道路(软件工程师专注做数据工程)。

工作内容包括:

  • 高级数据结构
  • 分布式计算
  • 并发程序设计
  • 使用 Hadoop, Spark, Kafka, Hive 等新工具
  • 开发ETL/数据流水线(data pipelines)

数据科学家

数据科学家的职责是基于数据作分析。

或许有一只想要更好理解消费者行为的团队,仅仅做一个单次分析。也可能是开发一个机器学习算法,然后将之在软件工程师和数据工程师开发的代码基础上执行。

工作内容包括:

  • 数据建模
  • 机器学习
  • 算法
  • 商业智能的 dashboards

这些角色定位仍在进化之中。有些大公司从软件工程团队中拉出数据工程师,组建一支中央数据团队。这样,基础设施和数据分析工作能在一起。雷锋网(公众号:雷锋网)获知,有些案例中,数据科学家既需要做数据分析,也需要做数据整合。

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-21 00:48:32

一张图看懂数据科学家、数据工程师和软件工程师之间的区别的相关文章

一张图看懂北京大数据云计算发展计划

近日,北京市发布<北京市大数据和云计算发展行动计划(2016-2020年)>(以下简称<行动计划>).<行动计划>明确提出到2020年,北京市大数据和云计算创新发展体系基本建成,成为全国大数据和云计算创新中心.应用中心和产业高地的战略目标.       原文发布时间为:2016年7月6日

六张图看懂 Amazon Go智能购物,专利文件解密AI 核心技术细节

亚马逊Go推广视频:1分钟,颠覆你对线下实体购物的认知 几天前,就在亚马逊迎来可能是公司史上最大的 Holiday Season时,亚马逊发布了一段介绍旗下新的零售商店 Amazon Go 的视频,消费者可以直接走进商店,拿下货架上的货物,然后离开.整个过程不需要排队,也不用结账. <福布斯>的记者 Ryan Mac 说:"这看起来非常有趣,充满了未来感,但是,至少目前为止,这一切还都只是宣传." 每年从感恩节到圣诞节的长假中,亚马逊都会成为媒体上的最大赢家.2013年,B

一张图看懂CIA:攻击能力强是有原因的

本文讲的是一张图看懂CIA:攻击能力强是有原因的,2017年3月7日,维基解密曝光了CIA一系列敏感数据.这是继斯诺登泄露NSA数据之后又一大国家级机密信息泄露,维基解密将其称之为Vault 7,是CIA史上最大规模的机密文档泄露. Year Zero是一个系列性的数据,其中第一部分就收纳了来自弗吉尼亚州兰利市网络情报中心(CIA总部)的8761份文档和文件.这次CIA泄露的机密性数据包括恶意程序.病毒.木马.具有攻击性的0day exp.恶意程序远程控制系统及其相关文件. 据维基解密披露,CI

云栖长卷:一张图看懂云栖七年

7年前投下的一颗石子,7年后已经激荡成为一段壮阔的波浪. 2010年,与阿里云共同起步的,还有一场让中国互联网开始接触.了解云服务的大会--云栖大会. 云栖长卷一张图看懂云栖七年 ▼

一张图看懂阿里云网络产品[一]网络产品概览

 一张图看懂网络产品系列文章,让用户用最少的时间了解网络产品,本文章是第一篇 网络产品概览 系列文章持续更新中,敬请关注 [一]网络产品概览 [二]VPC [三]EIP [四]NAT网关 [五]负载均衡SLB [六]共享带宽 [七]共享流量包 [八]高速通道 [九]VPN网关 [十]全球加速 [十一]云托付 目前阿里云网络产品共有10个,包括专有网络VPC,负载均衡SLB,NAT网关,EIP,共享流量包,共享带宽,高速通道,VPN网关,全球加速.这么多产品有什么关联呢?为了便于大家理解,我们可以

一张图看懂2017双11中的网络产品和技术

一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络系列文章: 揭秘2017双11背后的网络-一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络-双11的网络产品和技术概览 揭秘2017双11背后的网络-直面双11洪峰的负载均衡SLB 揭秘2017双11背后的网络-全球最大混合云架构

酷派Cool S1怎么样?一张图看懂酷派改变者S1优缺点

前天,酷派在上海召开新品发布会,推出了最新的旗舰手机酷派改变者S1.作为年底的压轴明星产品,酷派改变者S1可谓集万千风光于一身.该手机共有暗夜黑.恒河金.流光黑三种配色,标配版(4+64GB)售价2499元,高配版(6+64GB)2699元,流光黑顶配版(6+128GB)3199元.接下来我们就通过一张图来迅速地了解一下酷派改变者S1. 以上就是小编为大家带来的一张图看懂酷派改变者S1优缺点介绍的全部内容,感谢大家的阅读.

中国人工智能学会通讯——一张图看懂BP算法 1.3 神经网络的 BP 算法

1.3 神经网络的 BP 算法 它描述了网络输出和目标输出之间的距离,刻画了网络性能的好坏.显然,J越小,网络性能越好.寻求J的极小点是BP算法的目标. 这一关系式表明只要能计算出敏感性,即可据此计算出梯度. 删除中间过程,有 通过计算网络最后一层神经元的敏感性,然后在网络中反向逐层计算其他层神经元敏感性,这就是所谓BP. 图4非常容易记忆和理解,这就是我们所谓的一张图看懂BP算法.

一张图看懂大数据生态圈

世界杯虽然已落下帷幕,但大数据在本届世界杯上的精彩表现仍被业界津津乐道. 两年前,<纽约时报>撰文"欢迎大数据的到来".两年后,大数据的商业价值已经显现.医疗行业.交通行业.http://www.aliyun.com/zixun/aggregation/14199.html">金融行业和零售行业,我们都能看到大数据的身影. 相对于这些行业,电信行业拥有更加丰富的用户数据:用户详细资料.用户上网日志.位置信息.访问记录.终端信息等. "电信运营商详细