数据科学家并非必需

数据科学家被媒体人称为是21世纪最性感的职业,是IT业界身价不菲、千金难求的的超级明星,这使得许多打算尝试大数据的企业们望而却步,但事实上在没有数据科学家的情况下,企业同样能够玩转大数据。

到现在,只要一提起大数据,谈论最多的就是人才的紧缺,数据科学家已经成为21世纪最性感的职业了等等。哈佛商业评论及咨询公司麦肯锡的报告里也这么表示,外加数据科学家们本身自然也乐意被打上这样的标签。

然而, 这种说法, 也让很多准备考虑大数据战略的企业面对大数据的机会望而却步了。 那么, 如果缺少数据科学家, 企业的大数据就真得玩儿不转了吗? 其实也未必。

这里, 当然不是说数据科学家不重要。 相反, 数据科学家这个职业在大数据时代非常重要。 在企业中, 数据科学家的工作, 实际上是联系企业的IT技术和企业所在行业专业知识的纽带。 这样的知识交集上的人才, 本身确实匮乏, 而且, 即使大数据又再大的发展,同时具备这样的知识的人才也还是少数。 然而, 就像我们在计算机行业发展的早期, 不能说因为乔布斯, 盖茨这样的人才太少就制约了行业发展一样。 如今, 街边柯达店的小伙子都能用PS修人像, 而我们也不需要要求柯达店的小伙子具备编写图像处理软件能力。

大数据时代也是一样, Google, Twitter, Facebook那样的大公司, 可以负担得起那些高精尖的数据科学家, 而小企业, 也可以有自己的方式来更好地利用数据。 下面, 以电子商务的公司为例子, 结合数据科学家的工作, 来看看如何能够在企业现有能力范围内进行数据方面的工作。

数据科学家的工作, 大致分为三个方面:

第一, 数据架构的搭建, 第二, 数据模型的建立, 第三, 数据分析。

下面我们来看看那些雇不起或找不着数据科学家的屌丝企业如何玩转大数据:

数据架构的搭建:

首先, 确定企业对数据的需求点。 对绝大部分商业企业来说, 其实每个业务经理都可以告诉你, 他们所需要的数据就是用户行为的数据, 比如, 用户购买行为, 用户对促销或者广告的反应, 用户的社交信息等等, 基本上, 每一类这样的信息, 都可以比较容易的进行归类。

这里的关键, 就是尽量把需要的数据范围进行限定, 这样就可以设定一些简单的数据输入模板, 从而把数据采集和数据整理问题简单化。 这里可以采用一些开源工具, 如Hadoop, Hbase, Hive, Pig等, 把各类数据进行整合。 2/8 原则一般是适用的, 也就是, 80%的进行运营支撑的需求可以来自于20%的数据。 对企业来说, IT技术人员和业务专家共同的协作, 加上一部分外部咨询的帮助, 应该可以搭建一个可用的架构。

数据模型的建立

数据科学家的另一部分工作就是数据模型的建立。 这些模型可能是描述型的模型, 也可能是预测性的模型。 这部分的工作, 也是数据科学家经常被神化的部分。 其实, 这部分工作, 比如说推荐系统, 用户个性化系统等等。 数据科学家所做的大量工作, 在于提取数据的“特征”, 选择合适的模型, 并把它们输入模型, 等待模型输出结果, 再验证, 调整特征的循环。 这部分的工作, 需要第一, 熟悉各类统计模型或者机器学习模型的建立。 第二, 也是更重要的一点, 就是行业知识的了解。 比如一个推荐系统, 最重要的就是把提取用户特征, 提取商品的特征。 如果建模的人对行业知识不了解的话, 那么模型就会很庞大和复杂, 也未必精确。 在这里, 行业的专家, 尽管对建模未必很精通, 他们的市场感觉往往是选择合适特征值的关键。

因此, 对电商企业来说, 招几个学统计的员工(或者外包), 再配合企业内部的行业专家, 也可以建一些适合企业需要的基本模型。 也许没有Google或者Facebook那么地精确, 但是对绝大部分企业来说, 也够用了。 这也不失为是一条在找不到合适的数据科学家(事实上精通本行业又精通建模的人才本来也是凤毛麟角)的情况下的解决之道。

数据分析

数据分析的本质, 是把“数据”变成“信息”, 并从中发现对企业运营有价值的东西。 这其实和任何理科或者工科的“观察 — 归纳 —关联 — 分析 —验证”的研究方法从本质上是一致的。 从这个角度来讲, 行业的专业知识, 在数据分析的时候, 更加重要。

即使你把欧洲大型强子对撞机的数据给数据科学家, 他也发现不了“上帝粒子”。

国内的很多人都会津津乐道 美国百货公司Target通过数据分析给怀孕少女推送婴儿产品的例子,而很多数据分析师或者数据科学家在提到这样的例子的时候, 也在有意无意的进行误导。 其实, 如果没有对用户和产品方面的专业知识, 光靠数据分析或者数据模型, 是很难做到的。 而事实上, 任何机器生成的模型, 要想实用的话, 也都得需要人工在反馈路径上进行一定程度上的调整。

在数据分析领域, 已经有很多的分析工具。 然而, 现在的这些工具, 大多数也还是比较复杂。 需要类似数据科学家或者数据分析师这样的专门人员来使用。 由于企业精细化运营的程度普遍不高。 数据分析师或者是BI的分析师本来就稀缺, 更不要说精通行业专业领域知识同时具备数据分析工具使用能力的人才了。 一个解决的方式, 就是把常用的分析尽量模板化, 数据的整理尽量简化。 尽量采用Excel这样简单大众的分析工具。 归根结底, 企业进行数据分析的目的, 是为了经营服务的。 简单的工具, 在使用,分享和沟通方面都有优势。 这样的解决方案当然不算得完美, 但是, 如果能让具备丰富行业经验的专家以行业经验来弥补数据分析工具的不足, 对企业来说, 也算得上是一个在缺乏数据科学家情况下的可以从数据分析中获益的方式。

在大数据时代, 数据科学家的重要性当然是毋庸置疑的。 不过, 就像网站内容管理系统那样, 大型网站可以雇顶级工程师来自建系统。 小企业也可以利用WordPress这样的系统来满足自身的需求一样。

企业在这个人才匮乏的大数据时代, 利用已有的工具, 结合自身对行业的专业知识, 采取合适的策略, 同样也可以从数据和数据分析中获益。

对于那些准备淘金大数据的企业来说,还有一个好消息是:ClearStory这样的创业公司正致力于大数据的可视化和易用化,让那些雇不起高水平数据科学家的企业,以及非IT部门的业务人员也能使用大数据。正如电脑进入windows时代后,普通用户操作电脑不再需要逐条记忆繁冗的DOS命令行。

时间: 2024-10-27 12:00:10

数据科学家并非必需的相关文章

数据科学家实操之路

更多深度文章,请关注:https://yq.aliyun.com/cloud Kaggle最近进行了一项旨在评估数据科学和机器学习当前发展状况的调查. 他们收到了将近17000份答卷,并利用这些答卷做出了大量的分析.对于调查结果的分析报告,我并不感兴趣,我只是想看看这些调查结果是否对我这种想知道如何成为数据科学家的人来说是否有用. 如果你对分析过程并不感兴趣,而只想看看17000个行业专业人士的说法,那么请跳到本文的最后一节阅读结论. 否则,请继续阅读下文,看看我是如何得出结论的. 1. 导入和

想成为数据科学家?你得先读读这篇文章

市场营销学者Kevin Gray对肯纳索州立大学研究生院副院长.统计学及数据科学教授Jennifer Priestley做了一个采访,请教数据科学究竟是什么.一个好数据科学家应具备哪些品质以及如何成为一个好的数据科学家,访谈全文如下. Q:您能否用简单.外行人也能听得懂的话向我们解释数据科学? A:我认为Slack的数据工程总监Josh Wills给出的定义非常恰当--"(数据科学家是)擅长统计学的软件工程师与擅长软件工程的统计学家的混合体.",我还想在这里加上我本人的"Pr

每个网站或应用的数据科学家都少不了A/B这样的工具

为了搞清楚哪个功能.哪个版的设计更好,每个网站或应用的数据科学家都少不了A/B这样的工具.Facebook发布了自己的A/B 测试源代码--叫做PlanOut,以帮助数据科学家又准.又方便地测试. Facebook在官博中写道, "Facebook每天运行的测试有上行次,有些为了优化结果,有些出于为远期的设计提供决策基础,因为工作量如此可观,我们需要一套可靠.稳定的测试程序,很多在线测试由工程师代劳,而他们并非有经验丰富的统计学家.测试做对的时候很容易解析,但在它们的设计.实现.记录和解析上很容

如何区分数据科学家,数据工程师与数据分析师

与其他一些相关工程职位一样,数据科学家的影响力与互联网同进同退.数据工程师和数据分析师与数据科学家携手共同完成这幅"大数据时代"巨作. 三者之间的定义又是如何区分的呢? 数据科学家是什么样一个存在呢? 通常情况下,数据科学家有数学或物理方面的高等学位.有博士学位的情况并不少见,硕士学位仅是一个前提条件.数据科学家精通统计建模以及如何构建与定制高级数学算法.这既在他们专业范围内,也是他们所擅长的地方.我听到过有人这样形容一个数据科学家"软件工程技能牛过多数人的酷炫统计学家&qu

一个数据科学家的新年计划

简介 新年并非仅仅是更换日历或是清晨起床后揉开双眼.新年是充满喜悦的一个崭新开始.它给我们一个完美的理由养成一个新习惯,它意味着新"希望"的到来. 如果你正在阅读这篇文章,我确信数据科学会让你兴奋!你要在2016年做出改变,难道不是吗?如果你从今天开始致力于实现这些目标,这是完全可能的.你必须明白,成为一个数据科学家需要一个过程,它不是一朝一夕的成功.因此,你必须耐心地朝着目标而努力. 提示: 原文中涉及了大量链接,值得收藏!在大数据文摘后台,回复"计划",可下载d

12个思维导图工具,像数据科学家一样结构化地思考

◆ ◆ ◆ 引言 每个人都能进行全方位的思考,但是,用结构化的方式思考与酝酿使得数据科学家与众不同.在本文中,我们列出了一些对数据科学家来说是很棒的思维导图工具.这些工具提供了用创造性方式产生想法的很好的方法. 让我们从一个数据科学家经常面对的简单小练习开始: 你已经被指定为我们表现最差的店铺的店长,你会在店里做哪些可能的改变? 花几分钟时间仔细想一想.一旦你写下至少几个因素,我们就可以继续下去了. 那么,这个小练习怎么样?容易还是困难?你有多确定你在这个思维捕捉的过程中写下了所有可能的因素?

数据科学家无需太多,让大数据好用就够了

编者注:纽约时报曾撰文称大数据时代已经来临,http://www.aliyun.com/zixun/aggregation/13768.html">数据科学家曾被冠以最性感职业之称,可是电子商务咨询公司 Baynote 的创始人兼 CTO Scott Brave 却说我们不需要更多的数据科学家,让大数据更方便使用就够了.以下是他的看法: 大数据是今年的热门,以至于纽约时报等媒体均宣称大数据时代已经来临.挖掘大数据可以产出洞察力以及利用大数据进行知情决策和行动所需的激励和架构.而挖掘这些金矿

《Python数据科学实践指南》——0.2 如何成为数据科学家

0.2 如何成为数据科学家 读者应该知道这个问题很难回答,失败的原因总是相似的,成功的经历却各有不同.从来没有人靠复制他人的经历就能获得同样的成就,就像"人不能两次踏入同一条河流"的哲学观点一样,没有人可以复制别人的经历,更何谈成就.因此在回答这个问题时,我只假设一些概念上的前提条件:良好的计算机科学基础,较高的英文读写水平,极强的自学能力,还有一些个人品质比如耐心.毅力.乐于分享,等等.不过最重要的还是"兴趣",我相信能花上几十块钱购买这本书的读者一定是有兴趣的,

《Python数据科学实践指南》一0.2 如何成为数据科学家

0.2 如何成为数据科学家 读者应该知道这个问题很难回答,失败的原因总是相似的,成功的经历却各有不同.从来没有人靠复制他人的经历就能获得同样的成就,就像"人不能两次踏入同一条河流"的哲学观点一样,没有人可以复制别人的经历,更何谈成就.因此在回答这个问题时,我只假设一些概念上的前提条件:良好的计算机科学基础,较高的英文读写水平,极强的自学能力,还有一些个人品质比如耐心.毅力.乐于分享,等等.不过最重要的还是"兴趣",我相信能花上几十块钱购买这本书的读者一定是有兴趣的,