受大数据技术刺激 公民数据科学家正紧俏

ZD至顶网软件频道消息: 一提到大数据,人们立刻会想到的就是数据科学家,这是一个被财富杂志誉为21世纪最性感的职业。然而,数据科学家做为大数据起步阶段的工作岗位,其重要性必然会随着大数据技术的日臻完善而逐渐降低,公民数据科学家必将兴起,大数据分析不会只掌握在少数人手上,它必将民主化,人人都能做大数据分析。

Dell Statistica部门的首席研究官Shawn Rogers在一次采访中谈到:2016年将会是公民数据科学家年,因为业务用户需要一种民主化的方式来进行大数据数据分析。不是每个公司能负担起数据科学家的成本,这也是公民数据科学家将广泛地参与到大数据生态的一个最大的原因。

什么是公民数据科学家?

Gartner 研究分析师Alexander Linden是这样描述的:citizen data scientists as "people on the business side that may have some data skills, possibly from a math or even social science degree — and putting them to work exploring and analyzing data."

为什么需要公民数据科学家?

领英最新发布的《2016年中国互联网最热职位人才报告》,数据科学家需求强烈,排在前6名。 而数据科学家的供给指数最低,仅为0.05,属于高度稀缺。同时,数据科学家成本昂贵。

硅谷入门级的数据科学家的平均年薪已经达到11万美元,行业年薪已经达到1.4万美元~24万美元之间。

一方面数据科学家价格昂贵、人才供应不足,很难找到。而公民数据科学家广泛存在的企业中,并且具备一定的分析技能,让他们承担大数据分析工作可以有效的解决人才供应以及成本的问题。另一方面,公民数据科学家对于业务和企业实际情况更加熟悉,让他们参与到分析过程来,能实现了业务和技术的结合,更好的发挥大数据的价值。

数据科学的技能鸿沟

公民数据科学家常用技能:

  • SQL
  • BI工具
  • 数学/业务

数据科学家常用技能:

  • Hadoop/Spark
  • SAS/SPSS/R
  • Java/Python/Scala
  • NLP
  • Visual
  • Statistics
  • 其他

公民数据科学家和数据科学家在专业技能上存在一定的鸿沟,如果按照原有的工作方式,会存在技能不足的问题。

如何跨越数据科学的技能鸿沟

随着大数据、云计算的发展,云平台、新技术将协助公民数据科学家跨越技能的鸿沟。

大数据云端服务

安装、运维Hadoop、Spark、数据仓库,需要专业的技术,而且是一件比较繁琐的事情。直接使用云端服务,能很方便的管理,大大地降低了运维难度。 下面以HashData数据仓库为例,说明如何通过Web界面进行大数据云端服务的创建、管理等具体操作。

  • 创建数据仓库

Step1提供集群配置信息

Step2私有网络配置

Step3数据仓库用户配置信息

  • 数据仓库性能监控

  • 数据仓库扩容

自助服务BI

传统BI的适用对象是IT专家,而自助服务BI的适用对象是公民数据科学家。在这个大数据的时代,需要数据工作越来越多,业务关联性也越来强,对业务不熟悉做不好数据分析。为了更好地发挥大数据分析的价值,最好的办法是使用自助服务BI,让业务用户参与分析。

借助自助服务BI工具,公民科学家可以在不需要编程的前提下,进行数据分析工作。但是这种分析对时效性要求一般挺高,他们大多数希望数分钟内得到结果。随着数据量越来越大,建议搭配一个高效的并行执行引擎,比如Teradata、HashData、Impala、SparkSQL等,它可以保证在很短的时间返回结果,如果计算能力不够,还可以弹性扩展更多的计算资源,以保证执行时间。

自助服务BI工具很多,比如Tableau、QlikView、BusinessObjects等。

Machine Learning in SQL

数据科学家常用的机器学习技能包括R、Spark MLlib,但是有一定的学习曲线。如果能使用SQL语言进行机器学习的话,将会大大使用降低使用难度,Apache MADlib正是这样的一个项目。

Apache MADLib项目自2011年开源以来,经过迅速发展,目前已经能支持Linear Regression、Logistic Regression、Decision Tree、Radomn Forrest、Native Bayes Classification、SVM、Association Rules、K-Means Clustering 
Low-rank Matrix Factorisation、PCA、SVD Matrix Factorisation等多种常用的机器学习算法。2016/09/02,Apache MADLib项目刚刚发布了v1.9.1版本,这个版本将支持1-class SVM for novelty detection, class weights for SVM, prediction metrics, sessionization, pivoting, overlapping patterns in the path function等算法和功能。

下面将向大家介绍如何使用Apache MADLib库中的逻辑回归算法来对预测心脏病是否复发。

  • Step 1 建表和收集病人原始数据

  • Step 2 根据原始数据训练模型

  • Step 3 预测

Apache MADlib目前只支持PostgreSQL内核的数据库,比如Greenplum、HashData。其中HashData目前在青云上可使用。

小结

公民数据科学家的兴起,不会取代数据科学家。他们将会组成数据分析团队,共同协作提炼大数据价值。

原文发布时间为:2016年9月7日

本文作者:赵东

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-02 20:33:32

受大数据技术刺激 公民数据科学家正紧俏的相关文章

周鸿祎:以大数据技术对抗大数据平台安全威胁

1月,中国大陆境内所有通用顶级域(.com/.net/.org等)解析出现问题,所有相关域名均被指向一个位于美国的IP地址(65.49.2.178),导致数千万网民在数小时内无法访问网站. 4月,OpenSSL"心脏出血(Heartbleed)"重大安全漏洞被曝光,这一漏洞让黑客能够读取服务器系统的运行内存.有业内人士利用该漏洞在某知名电商网站上测试时,成功获得多位用户的账号及密码,并成功登陆网站. 9月,"iCloud艳照门"事件爆发,数百张好莱坞女演员不雅照在网

IBM社交大数据技术:“上天台”,请留步

四年一度的顶级足球赛事已经告一段落,171个进球让全世界为之振奋,球迷们在这一个月中过足了足球瘾.中国队虽然与世界杯无缘,但是中国人是此次世界杯不可缺少的人群.根据IBM数据分析,此次世界杯每天有有超过1.2亿人在社交媒体发声,微博上相关讨论超过十亿次.其中关于足彩的讨论http://www.aliyun.com/zixun/aggregation/7814.html">脱颖而出,以355678次的频率成为网友讨论最多的话题. 因小组赛爆冷频繁,以前被中国队瞧不起的哥斯达黎加也仅失两球进入

数据科学家和大数据技术人员工具包

数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独特的基本思

盘点最受欢迎的十个开源大数据技术

大数据已然成为当今最热门的技术之一,正呈爆炸式增长.每天来自全球的新项目如雨后春笋般涌现.幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术. 1.Hadoop--高效.可靠.可伸缩,能够为你的数据存储项目提供所需的YARN.HDFS和基础架构,并且运行主要的大数据服务和应用程序. 2.Spark--使用简单.支持所有重要的大数据语言(Scala.Python.Java.R).拥有强大的生态系统,成长迅速,对microbatching/batchin

【先锋】思明软件大数据技术平台打造历程和Impala实战分享

在采访思明数据刘诚忠的过程中,他表示当下大数据领域企业级市场靠技术垄断获取高额利润的玩法已经过时了,技术的成本会不断降低,这是大势所趋,这个市场的巨头会出现在技术很好,但服务更好的公司里.而站在用户的角度,用户们首先关心的是如何让数据发挥价值,然后才是这套解决方案依赖何种技术,是否能快速应用,是否能适应后面可能的扩展,相对技术来说第一点是更难的. 事实上今天的企业客户,特别在大数据技术领域,更需要的是长期的合作伙伴.他们不只需要购买技术密集的产品,还需要和大数据的技术专家一起研究如何让数据发挥出

调查结果:企业用户如何运用大数据技术?

  目前围绕大数据技术所展开的宣传炒作可谓一浪高过一浪,而由此推动的消费增长也堪称一波未平一波又起. 据IDC预计,到2017年,大数据技术与服务市场的年复合增长率将达到27%,届时整体市场规模也增长至324亿美元.根据IDC的说法,为了帮助大家更为直观地进行比较,大数据市场的增长速度比信息及通信技术市场的整体增幅高出六倍.   尽管资金在不断涌入,但企业花掉的真金白银到底能不能买回个光明的未来还真说不准--毕竟目前尚处于大数据技术部署的早期阶段.为了找到确切答案,研究人员们调查了多位IT高管及

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

115期:在线大数据技术峰会回顾合集!

本期头条   票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为"高可用大数据计算服务如何持续发布和演进"的演讲.本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具.Flighting工具和灰度上线.细粒度回滚等,点击查看. • [资料合集]在线大数据技术峰会:讲义PDF+活动视频! • 提速1000倍!阿里率先采用Intel Optane SSD • 东京见闻:快速走

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都与大数据