企业大数据分析实践指南、总结与展望

数据无处不在

在我们身处的时代,数据无处不在。据IBM公司估算,我们每天产生约2.5万ZB的数据,这意味着世界上90%数据都是过去的两年中产生的。

Gartner公司分析报告显示,在2015年财富500强的公司中百分之八十五的企业无法利用大数据来获取竞争优势。

到2020年,全世界将有上百万大数据相关的就业机会产生。这些庞大的数据蕴藏了宝贵财富,企业可以使用最先进的分析技术,利用这些数据更好地了解客户的行为,识别商业机会,制定运营战略。

让我们举几个例子:

金融机构每天通过信用评分模型,了解他们的客户在未来12个月内每种信贷产品(抵押贷款、信用卡、分期贷款)上的信用。他们以该信用评分为基础来进行坏帐准备,计算巴塞尔协议II/III规定所需资本金数量,或是制定营销方案(例如根据信用评分调整信用卡额度)。

电信运营商使用最近通话行为数据建立流失模型,估计客户在未来一到三个月流失的可能性。

运营商会根据模型得分来制定营销活动,避免有价值的客户流失。

Facebook和Twitter会使用社交媒体分析技术进行内容分析和情感语义分析,以便更好地了解品牌认知度,进一步调整产品服务设计。

亚马逊和Netflix等在线零售商不断地分析顾客的购买行为,以决定产品捆绑销售策略,并利用推荐系统为客户下一次购买推荐产品。

信用卡公司使用欺诈检测模型,检测付款是否具有欺骗性,是否发生了信用卡盗刷。

政府采用数据分析技术来预测逃税行为,优化公共预算分配,分析交通数据提高公共交通效率,分析预测恐怖袭击保障国家安全。

化数据为价值

数据是任何分析模型成功的基础。当启动分析项目时,有必要详细列出企业内所有可用于分析的数据。这里的原则就是数据越多越好!因为很多分析模型都能自动决定哪些数据对当前分析很重要,哪些数据可以排除在下一步分析之外。

我们的研究不断印证了这样一个观点:改善分析模型最好的办法,就是投资于你的数据!这可以通过数量和质量两个维度的提升来完成。对于前者,一个关键点是如何整合结构化数据(例如关系数据库)和非结构化数据(如文本),提供全方位综合视角进行客户行为分析的,另一个关键点则是在线数据和离线数据的整合,很多企业为这个问题所困扰。此外企业还可以超越其内部边界,考虑从外部数据供应商那里购买外部数据,以弥补其内部数据的不足。大量的研究表明采用外部数据,对比较和完善分析模型非常有用。

虽然数据常常体量巨大,但是数据质量经常是一个痛点。GIGO(garbage in garbage out)的原则在这里非常适用,烂数据只会生成烂模型。听起来显而易见,然而实践中数据质量往往成为许多分析项目的“阿喀琉斯之踵”。数据质量可以分解成很多维度:准确性、完整性、新近度、一致性等。在大数据分析中,企业必须专门制定数据质量管理方案,设立数据审核员、数据管家或数据质量经理等职位,持续监测数据质量。

数据分析应该从商业问题开始,而不是从具体的技术解决方案开始。但是这带有一丝“鸡生蛋,蛋生鸡”的意味。要解决商业问题、识别商业机会,需要对潜在的技术解决方案有了解。以社交媒体分析为例,只有首先了解分析技术后,公司才能开始思考如何利用它们研究在线品牌认知度,进行趋势监测。为了跨越分析技术和业务之间的鸿沟,持续性培训和学习是关键,它能使企业始终屹立在分析技术的潮头,保持竞争优势。在这一点上,学术界应该深刻检讨,因为现有的很多大数据分析(或数据科学)硕士课程无法满足上述的要求。

将数据转化为洞察力和提升价值的另一个关键点是分析模型的验证。分析模型需要适当的机制和工具来进行审核和验证,越来越多的公司将分析团队拆分成模型开发和模型验证两个团队。良好的公司治理能够在两个团队之间筑起一道防火墙,使得由前一小组开发的模型可以客观和独立地被后者团队评估。公司甚至可以考虑由外部合作伙伴进行模型验证。通过建立分析基础信息设施,公司能够不断基于现有状况对模型进行评估和验证,提升分析模型性能,抓住更多目标客户。

数据分析往往不是一蹴而就的事情。事实上,当分析模型投入使用时就已经过时了!分析模型总是落后于现实,我们能做的只是保持这种滞后性尽可能小。分析模型所使用的数据,都是在一个特定的时间点和特定的内外部环境条件下采集得到的。这一特定环境不是静态的,而是随着内部因素(如新战略,不断变化的客户行为)和外部因素(新宏观经济环境和法律法规)不断变化而变化。

例如,欺诈检测分析中,欺诈者总是试图不断逃避模型的侦测,以骗取更多的钱财。另一个例子是信用评分模型在很大程度上依赖于当前的宏观经济状况(复苏或是衰退)。因此,分析模型要取得成功创造价值,就必须对内外部环境进行监测,以及时调整或重建模型。

构建底层基础

为了建立一个分析环境,企业需要就所采纳的硬件和软件技术进行选择。

硬件方面,需要专门的基础设施(如Hadoop和相关的软件栈)来清理、整合、存储和管理数据。为了减少支出,企业可能选择云存储,并将大数据作为一种服务。公司在同外部进行数据传输和交换时,应采取适当的谨慎措施,保证数据私密性。

软件方面,很多厂商提供了大数据分析的商业解决方案。目前市场还有很多的开源分析软件(R、weka、Rapidminer),虽然这些开源软件解决方案变得非常流行,但是他们还不够成熟,还不足以很好的处理具有大体量、多样性等特性的大数据。大数据分析成为越来越多公司的DNA 组成部分,但是政府、金融、医药,每个行业都有自己发展足迹,数据、业务和监管都具有特异性,需要针对不同的基因组成进行不同的设置。因此企业需要的是能提供综合全面垂直业务解决方案的软件,而不是一个跨行业的横向通用软件。

鉴于建立数据分析构架环境的复杂性,公司可能会考虑外包。然而,公司内部数据及其蕴藏的信息是公司最宝贵的战略资产,因此不宜让第三方完全拥有数据访问权。相反,企业应该建立内部分析中心和培养公司人员的分析技能,以服务公司广泛的分析需求,这是公司在管理中应该考虑的问题。同样公司董事会和高级管理人员都应该参与到分析环境构建中。很多企业还尝试设立首席分析官(CAO)这样的职位,专门负责建立企业范围内的分析环境和基础设施,管理各业务单位分析模型的研发、审核及部署。

最后一点,我们现在看到越来越多的中小型企业开始借助大数据分析。这些公司通常预算有限,因此它们比较中意那些现成的可以直接用于数据分析的现成软件解决方案。比如利用在线分析工具,来研究网站的使用现状,优化网站设置、改善网站在搜索引擎排名并购买付费引擎营销方案。

总结与展望:

在文章的结尾之处,我们想再次重申企业进行大数据分析所必须注意的几个问题:

从公司管理的角度来看:

  1. 公司应同时关注数据体量和数据质量;
  2. 持续学习和培训能填平新分析技术和新商机之间的鸿沟;
  3. 分析开发团队应该包括独立的模型开发团队和模型验证团队;
  4. 分析并不仅仅是模型开发和验证,还包括模型的监测和回溯测试。

从技术的角度企业应该:

  1. 考虑使用云服务来进行大数据分析;
  2. 应该关注垂直式行业解决方案,谨慎选择开源软件;
  3. 对待外包分析要慎之又慎,最好能在企业内部建立分析环境,并置于高层的管理之下。

本文作者:巴特.贝森斯/朱兵

来源:51CTO

时间: 2024-10-02 13:40:42

企业大数据分析实践指南、总结与展望的相关文章

企业大数据分析实践指南

数据无处不在 在我们身处的时代,数据无处不在.据IBM公司估算,人类每天产生约2.5万ZB的数据,这意味着世界上90%数据都是过去的两年中产生的.Gartner公司分析报告显示,在2015年财富500强的公司中百分之八十五的企业无法利用大数据来获取竞争优势. 到2020年,全世界将有上百万大数据相关的就业机会产生.这些庞大的数据蕴藏了宝贵财富,企业可以使用最先进的分析技术,利用这些数据更好地了解客户的行为,识别商业机会,制定运营战略. 让我们举几个例子,金融机构每天通过信用评分模型,了解他们的客

HP Vertica企业大数据分析平台爆出远程提权漏洞 4.1及以后版本受影响 绿盟科技发布安全威胁通告

Fortinet向HP提报了一个 hpe vertica大数据分析平台中的远程提权漏洞CVE-2017-5802,攻击者可以远程利用此漏洞获得特权访问.HP已经给出各版本的升级补丁.绿盟科技发布< HPE Vertica Analytics Platform远程特权访问漏洞安全威胁通告 >,通告全文见下方后半部分. Vertica是一款基于列存储的MPP (massively parallel processing)架构的数据库.它可以支持存放多至PB(Petabyte)级别的结构化数据.Ve

贝恩:企业大数据战略指南

拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍.决策速度比竞争对手快5倍. 当某在线视频网站准备推出自制剧的时候,评论家纷纷嘲笑他们把握观众品味的能力.很难有谁会想到,该公司通过分析其积累的多年用户观影偏好的大数据,来指导制片人.主演选择和编剧内容并一炮走红,帮助其在一个季度内获取数百万新增用户,并在接下来的一两年内里获得数倍的股价提升. 打造大数据战略的四大挑战 我们正在迎来一个数据爆炸的时代:各类设备和互动产生的数据量正以年均大于50%的速度增长,预计在2020年可能会达到4

500家国内AI企业大数据分析:产业布局与融投风云

本月,腾讯研究院与IT桔子联合发布了<2017年中美人工智能创投现状与趋势研究报告>,针对国内外1000多家人工智能企业进行了深入分析,并在报告中给出了众多富有洞察的结论.但遗憾的是,此份报告针对国内人工智能初创公司虽然作出了一定的宏观分析,但可能限于篇幅问题,在更多的细分数据维度,比如企业平均融资轮次.各路资金在整体AI产业链上投资布局等方向尚未进行深入的数据分析,这是比较可惜的地方.因此,本文产生了从IT桔子爬取国内所有人工智能初创企业数据,继续挖掘其中更深入的产业特征的想法.本文基于从I

企业大数据分析:2014年值得期待的大趋势

1月8日消息,据国外媒体报道,据市场研究公司IDC预测,2015年大数据市场规模将从2010年的32亿美元增长到170亿美元,复合年增长率为40%.大数据是一个庞大的新的领域,其中的数据集可以增长的非常庞大,以至于使用传统的数据库管理工具也很难处理.处理这种问题所需要的新工具.框架.硬件.软件和服务是一个巨大的市场机会.随着企业用户越来越多地需要连续不断地访问数据,好的大数据工具集将以最低的成本和接近实时的速度提供可伸缩的.高性能的分析.通过分析这种数据,企业可得到更大的智能以及竞争优势.下面是

大数据分析打造智能制造业

文章讲的是大数据分析打造智能制造业,Made in China的标志性导致了制造业正在成为中国走向世界的一张名片,然而随着人口红利拐点的临近以及土地成本的上升,中国制造业最根本的成本优势逐渐不复存在,制造业需要实现更加高效的信息化转型.然而在这一过程中,中国制造业正在面临前所未有的挑战. 中国政府也已经意识到了制造业竞争力的逐渐下滑,也在积极推进信息化与工业化的深度融合以实现可持续的工业发展.今年五月国务院正式印发了<中国制造2025>,部署全面推进实施制造强国战略,旨在通过重点推进创新驱动.

干货分享:企业大数据的实时分析之路

近日,"2016易观A10大数据应用峰会"主论坛"大数据基础框架设计-实时分析技术平台洞察与实践"上,易观CTO郭炜发表了"企业大数据的实时分析之路"的主题演讲,从技术角度给大家讲述如何用实时分析帮助企业进行数据运营. 以下为演讲实录及PPT: 郭炜:各位嘉宾,各位领导,各位技术的小伙伴们,早上好! 非常荣幸今天站在这里和大家分享一下我们易观对于实时分析技术的一些理解.其实昨天于老师也曾经讲过,我们的实时分析会助力我们的用户资产增长,究竟什么是实

IBM Power全面推动认知时代大数据分析发展

近日,IBM在2015中国大数据技术大会上分享了其在大数据分析领域的最新成果,阐述了面向大数据分析领域的IT基础架构的最新战略.针对企业在认知时代面临的大数据分析工作负载,IBM坚信要以全新的IT基础架构作为支持.凭借产品和解决方案的持续革新,IBM致力于助力大数据应用创新,通过打造基于Power的本地生态系统,全面推动本地大数据分析技术的发展. IBM副总裁.大中华区硬件系统部总经理郭仁声 IBM副总裁.大中华区硬件系统部总经理郭仁声表示:"认知时代的到来标志着信息技术的发展步入了全新阶段,也

让大数据分析更有效的5种技术措施

如今,数据量越来越大.近年来,企业已经意识到数据分析可以带来的价值,并且已经开始采用.企业现在的设备几乎都在监测和测量,并创造了大量的数据,通常比企业处理的更快.其问题是,而正因为大数据定义为"大数据",所以数据收集的小差异或错误可能会导致出现重大问题,错误信息和不准确的推论. 有了大量数据,就能够以业务为中心的方式来分析它的挑战,实现这一目标的唯一方法就是确保企业制定数据管理策略. 然而,有一些技术可以优化企业大数据分析,并最大限度地减少可能渗透这些大数据集的"噪点&quo