低成本的高级数据分析项目

深度的数据分析项目通常花费不菲。不过,如果善于创新,CIO们能够以较小成本顺利完成项目。对此,NielNickolaisen进行了说明。

目前,IT领袖及其团队正面临巨大的机遇,改变企业对自身的价值定位。IT团队有着现成的资源来实现巨大的业务价值,而成本却可以非常低。对,没听错,非常低的成本。在进入正题之前,首先声明,我要谈的东西可能与直观感觉不符,甚至违返企业传统文化。许多年来,我们都被反复地告知,如果想要交付高价值服务,就不得不付出高昂成本。对,高价值服务背后往往意味着较高的成本,但这并非金科玉律。

下面,我们进入正题。以较小成本实现高价值服务的场景之一,就是高级数据分析项目。我之所以能做出这个结论,是因为我有过类似经历(成本确实很低)。我曾经是某大学的CIO。当时,该大学的管理团队有一个最为主要的工作目标,即提升毕业率。不管在什么场合,团队都会就此展开讨论。

在某次会议上,我曾经这么表态过:“如果能确保我认识所有的学生,我能保证毕业率达到100%的水平。”当时,所有与会者都很无语,转而讨论课程设置、学生辅导和教学模式等方面的话题。会后,我继续就毕业率的问题进行了思考。我们有一个录取模型,由教育领域的专家开发,用于决定我们接收学生的标准。

其中,有三个因素是最重要的:英语、写作和数据能力的测试分数。所有报考的学生都必须进行这三门考试,而我们择优录取。为此,我开始怀疑我们的数据是否真正支撑了这种录取模型。我们已经有大量与报名学生、正式入学的学生以及最终毕业的学生相关的数据。如果对这些数据进行分析,进行形成对录取模型的优化,将是极具吸引力的工作。

但是,该如何启动项目呢?我的团队中没有真正的数据科学家,也没有支撑这项高级数据分析工作的工具和环境。不过,最终结果证明,其实我并不真正需要这些人力物力。至少,在开始阶段不需要。我的做法是,在一个数据挑战网站把问题和数据(进行了脱敏处理,去掉了学生们的个人识别信息)公布出去,让全世界的数据科学家、分析师和统计学家来为我构建新的录取模型。整个工作最终花费了两个礼拜的时间,得到了一个超出我预期的更好的模型(以现有数据集来看)。我选定了得到最佳模型的优胜者,并发布了奖励3500美元(不是3万5千美元,也不是35万美元,更不是350万美元)。

如果这个模型最终被证明为失败,我的损失就是3500美元而已,就我当时所掌控的预算来说,这点钱不是问题。那么,这个新模型的实际价值如何呢?新模型揭示了现有人为定制模型的问题所在。根据数据分析的结果,我们之前认为的最重要的因素,其实在重要性上仅排名第六而已,而之前第二重要的因素实际应该在第九位。我们进一步了解到,其实很多待录取的学生没有必要进行英文、写作和数据能力测试——如果这些学生在真正重要的指标上合格了,他们根本没必要进行测试。就这样,仅仅花了3500美元,我们就改变了学校运营的模式,并进入了以数据推动决策的阶段。

我们更新了学校的宣传和录取策略(现在,我们已经知道哪些学生能够顺利毕业,就没有必要在其他人身上多费力气了)。基于促成学生成功的真正因素,我们开始在相关领域开始发力。比如,之前缺少科学、技术、工程或数据方面作业的学生不予录取。这也意味着,在这些方面较弱的学生需要我们的特别关注和协助,以此提升其成功毕业的机率。

在这个项目之后,我们启动了一个有关学生辅导模型的数据分析项目。该项目意在识别出那些面临困境的学生,而我们则可以根据分析结果将更多的资源投入到这些学生身上,以此帮助其获得学业上的成功。这一切成绩的背后,起到主导作用的就是IT团队。数据分析项目:如何启动如果你对此感兴趣,下面就介绍该如何启动一个数据分析项目。

首先,定位一些长期困扰企业的、较为含混不清的问题,比如用户流失、需求预测、精准营销等等。然后,审视下手头现有的、与这些问题相关的数据。是否拥有所需的数据?这些数据的存在形式?还缺少哪些数据,以及该如何解决?之后的事情,就是找到模型开发团队。比如,数据竞赛网站、寻找学生项目的本地大学、具备相应能力的本地大数据/数据科学家用户组。

有件事需要特别注意:在大学里推动高级数据分析项目时,我们从不在任何大数据基础架构或环境上进行过多的投入。比如,对于上面提到的识别处于困境的学生的模型,由于只需要每两周运行一次,我们是通过云租用的模式获取计算资源的。每个月,我们支付3000美元来让模型跑一次,对覆盖约5万学生的2000个数据元素进行计算。退一万步说,即便模型所产生的价值很低,这种成本也是极为低廉的。就我们的这个模型来说,这简直太划算了–把学生退学率降低了10%,节省了数百万美元的成本。这一切,你也可以做到。

原文发布时间为:2016年3月11日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-07-30 20:33:08

低成本的高级数据分析项目的相关文章

大数据分析项目中的“最差”实践

本文讲的是大数据分析项目中的"最差"实践,大数据分析现在很火.只要你浏览任何IT出版物或者网站,你都能看到商务智能供应商和他们的系统集成合作伙伴推销帮助企业实施和管理大数据分析系统的产品和服务.这些广告和大数据分析的新闻以及供应商匆匆提供的案例研究可能会使你误认为大数据是很容易的事,误认为要成功部署只需要一种特别的技术. 如果它是那么简单就好了.当BI供应商乐呵呵地告诉你他们的客户已经成功部署大数据分析项目时,他们不会告诉你还有那么多失败的案例.大数据分析项目令人失望是有一些潜在原因的

大数据分析项目需要慎重而有力的监管

分析团队的管理者们必须拿捏好指导数据科学家们完成工作,和给予他们能够有效完成工作所需要的空间之间的分寸. Scotiabank, 是一家总部位于多伦多的金融服务企业,企业内的数据科学家们不附属于任何特定的业务部门.相反,他们是一个独立的团队的一部分--正式的名称为决策科学团 队--为银行内的所有部门提供高级分析. 但独立并不意味着脱离: Andrew Storey,银行的决策科学部门的副总裁, 他和其他管理者们都努力确保团队进行的数据分析项目,对于业务战略和运作是有实用价值的,而不是单纯的抽象练

帆软CEO陈炎:为什么大量的数据分析项目会失败?

今年9月份Gartner发布的<传统企业报表平台市场指南>里,有唯一一家中国公司入选了由它推荐的供应商列表名单--帆软旗下报表类产品Finereport,和微软.SAP.Oracle等国际巨头并列,由此引起了早餐君的注意. 简要回顾下,2006年,还在南京大学的陈炎和另外两位志同道合的同龄人成立了帆软.最初以报表工具起家,后拓展至商业智能平台.目前提供的产品服务主要是以私有云部署的Finereport和FineBI,以及公有云部署的简道云.经过多年奋斗,帆软已经成为专注于商用报表系统和自助大数

五步打造高效的大数据分析项目

大数据不仅是一个流行话题,更是企业中实实在在存在的需求.许多企业开始 着手于大数据分析项目,但在此之前,我们需要一个良好的部署方案以确保最终 的结果能够为业务服务.选择合适的技术是规划的第一部分,当企业选择了数据 库软件.分析工具以及相关的技术架构之后,我们就可以进行下一步并开发一个 真正成功的大数据平台. 当然,我们也没必要过分夸大项目管理进程的作 用,成功的大数据分析项目来自于多个方面.在本文中,我们就将介绍五个技巧 ,企业用户进行平台部署的时候可以作为一定的参考: 只选择你所需要的 数据.

网站分析:Excel中的高级数据分析(二)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 上篇博文已经介绍了如何安装Excel的高级数据分析功能,并且介绍了回归分析,说实话篇幅有点长,主要是安装那块截图比较多;这篇主要介绍一下描述统计.抽样分析和直方图. 一.描述统计 中位数.众数.数据分布区间可能还比较容易可以算出,但是标准差和方差等的计算就比较麻烦了,这些都是描述样本数据的常用变量,使用Excel数据分析中的"描述统

企业部署大数据分析项目成功的秘诀

本文讲的是企业部署大数据分析项目成功的秘诀,大数据不仅是一个流行话题,更是企业中实实在在存在的需求.许多企业开始着手于大数据分析项目,但在此之前,我们需要一个良好的部署方案以确保最终的结果能够为业务服务.选择合适的技术是规划的第一部分,当企业选择了数据库软件.分析工具以及相关的技术架构之后,我们就可以进行下一步并开发一个真正成功的大数据平台. 当然,我们也没必要过分夸大项目管理进程的作用,成功的大数据分析项目来自于多个方面.在本文中,我们就将介绍五个技巧,企业用户进行平台部署的时候可以作为一定的

网站点击流数据分析项目----之现学现卖

1:网站点击流数据分析项目推荐书籍: 可以看看百度如何实现这个功能的:https://tongji.baidu.com/web/welcome/login 1 网站点击流数据分析,业务知识,推荐书籍: 2 <网站分析实战--如何以数据驱动决策,提升网站价值>王彦平,吴盛锋编著 http://download.csdn.net/download/biexiansheng/10160197 2:整体技术流程及架构: 2.1 数据处理流程    该项目是一个纯粹的数据分析项目,其整体流程基本上就是依

大数据分析项目需要考虑的注意事项

"大数据"已成为时下人们最为津津乐道的流行语.同时流行的术语还包括:商业智能(BI).分析和数据管理市场.越来越多的企业正在寻找商务智能和分析供应商,以帮助他们解决在大数据环境下的业务问题. 那么,到底什么是大的数据呢?最近,IT出版物eWeek提出了如下的看法,部分是基于Gartner公司的术语进行定义的:"大数据涉及到结构化和非结构化数据的数量.种类和速度,通过网络在处理器和存储设备之间传输,并为企业的相关业务提供相关数据业务咨询." 这一描述切中了数据管理和分

网站分析:Excel中的高级数据分析(一)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站分析中专业的工具除了Google Analytics, Adobe Sitecatalyst, Webtrends, 腾讯分析和百度统计等外,我想最常用的数据处理工具就是Excel了,Excel里头最基础的就是运算和图表的制作,稍微高级一点就是函数和数据透视表的使用了,当然你可能还会想到VBA和宏,但估计很少高手会使用这些高级的功能. 那