化繁为简 洞察大数据的关联性

文章讲的是化繁为简 洞察大数据的关联性,越来越多的人开始重视“数据技术(DT )”, 也就是从传统IT的以事务处理技术为核心,逐步转向专注于数据本身。“数字化”,“物联网”和“云计算”让一切皆可“量化”,所有的系统和设备每时每刻都在产生大量的、不同格式的、混杂的数据。利用好这些数据,可以让我们更全面的了解我们身处的世界。


▲甲骨文公司副总裁及企业绩效、商务智能和大数据业务中国区总经理 高礼强

  利用大数据的关键在于缩短业务人员和数据之间的距离。我观察到国内越来越多的客户在计划实施大数据项目,他们其中大多数都有在“小”数据时代建设传统数据仓库(Data Warehouse)、数据挖掘(Data Mining)和商业智能(Business Intelligence)的经验,但由于缺少对大数据思维变革的理解,往往事倍功半。究其原因,主要是忽略了大数据所要处理的,不仅有传统结构化的高价值密度的业务数据,还包括规模巨大且结构多样化的低价值密度数据。因此,做大数据分析所采用的分析策略和技术手段,必然有所不同。打个比方,如果我们传统的结构化数据分析项目主要做的是1+1=2的因果关系分析,那么大数据其实更需要做的是A+B+C+D=?的关联度分析。换言之,传统的数据分析项目做的通常是可以预知的事情,提高的是业务管理效率,而大数据探索是要寻找潜在的业务规律,和可能带来的业务创新。


▲因果关系示意图 关联关系示意图

  可视化探索+关联性分析 =“全数据”洞察

  在“小”数据时代,做好数据关联关系分析和因果分析已属不易。数据很难得到,收集整理过程也往往耗费巨大。从了解需求、建立假设、创建模型,再通过实验来验证假设。由于一切都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。

  如果用这样的方法去做大数据项目,通过数据整合、治理、清洗、建模、挖掘分析和展现的过程,业务用户距离数据仍然是比较遥远的。而一旦人们依赖主观的经验对低价值大数据进行清洗,必然客观上会导致数据价值的无辜流失。所以,对于大数据项目来说,如果你能对大数据有基于全数据(而不是清洗后的数据)的可视化探索洞察,就能在理解数据关联基础上,更好地进行高效的数据价值发现。甲骨文作为数据管理与业务分析软件领域的市场领导者,为客户提供最全面、集成度最高的大数据解决方案,帮助各种规模的企业组织发现大数据的关联价值,帮助更好制定和调整业务战略、优化运营、抓住新的市场机遇。甲骨文的大数据信息探索工具Endeca和新一代的面向Hadoop技术的甲骨文大数据发现(Oracle Big Data Discovery, Oracle BDD)是强大的可视化大数据探索工具,是集发现、探索、转变、挖掘、展现和共享为一体的端到端大数据关联分析平台。

  汽车行业大数据应用:实现高效售后服务

  为了方便大家理解,我这里与大家分享两个生动的Oracle BDD的应用案例。我们有一个汽车集团的用户,这个企业的大数据系统非常复杂,汇集了包括零部件采购数据、产成品数据、库存数据、销售数据、售后维修维护数据、售后T&M开销数据、客服中心受理数据、客户网上投诉数据、多个汽车论坛的互联网舆情数据等等。

  我们的客户通过Oracle BDD进行大数据探索,可以成功地了解到哪些问题和哪些部件的关联性高、哪些问题和维修量关联性高等有价值的信息。当客户的业务分析师进入BDD的应用界面,首先可以看到所有220个数据属性(维度)的面貌,包括生产了多少车、有多少车在库、有多少车在修、花费多少人工在修、各种产成是多少等等。在这些基本信息之外,也会看到各种从非结构化数据中提炼出的“云标签”属性,即客户哪些抱怨比较多、哪些车存在哪些问题,而且是通过不同大大小小的标签文字来直观地表达出来,那些大一些的标签代表发生概率比较高的数据对象。

  其中有一个典型的场景,客户发现一些用户常常抱怨汽车冒烟的问题,于是就在BDD的搜索框中输入“冒烟”,BDD实时搜索关联出所有与冒烟有关的信息,包括冒黑烟冒白烟、哪些车冒烟、哪些用户投诉汽车冒烟、已有汽车维修记录中有多少是和冒烟有关的、冒烟车集中在哪个时间段、冒烟和哪些部件有关、导致冒烟的部件是哪些供应商的、维修冒烟车的成本是多少等等一系列关联的信息结果。通过这些数据,他们可以马上发现关联最多的是两家配件供应商,在过去一个月左右的时间里,几个型号的零件,以及类似的客户抱怨数据。这就让业务人员迅速将客户的投诉和配件供应商以及相关零件批次关联起来。像BDD这种用户自助式的灵活的关联探索分析,用其它的大数据分析工具是很难做到的。

  医疗大数据应用应用:用大数据破解疑难病症

  我要和大家分享的另外一个Oracle BDD案例,是个医院大数据项目。这个医院的大数据系统涵盖了医院信息系统HIS和临床信息系统CIS两大系统,具体包括了门诊管理、收费与帐务管理、医嘱管理、门诊电子病历、临床记录与文档、医疗质量控制、病案管理等二十多个应用子系统,也是包括了结构化、半结构化与非结构化的200多个数据属性(维度)。我们可以在下面图片中看到当前消化道科的患者人数为3830人,这些患者住院人次为4160、平均住院天数7.97天、31天再住院人数80、再住院率1.92%。


▲Oracle BDD案例——医院大数据系统截屏

  医院各科室的业务用户可以根据访问权限,方便灵活地以自助的探索形式,通过搜索,关联、筛选、钻取等操作来发现自己所关心的数据结果,并实时地形成各种分析图表。譬如某个医生遇到了一个罕见 病例,患者可能得了克罗恩病,但这名医生却没有关联的医治经验,BDD可以怎么帮助他呢?医生只要在BDD的搜索框里输入克罗恩病,BDD就会搜索寻找出有关联的所有信息,包括医院曾经接诊过哪些克罗恩病患者、哪些医生诊治过克罗恩病患者、克罗恩病患者做了哪些化验、医生都开了什么药、是否有病情严重者住院或手术、这些患者中是否有回诊等等。从下图中你会发现医院过去曾经接知过31位克罗恩病患者,83%是男性,40岁以上的患者占了87%,100%住院治疗,平均14天,住院而且克罗恩病患者的再住院率是2.78%。


▲医院大数据系统病例探析分析界面截屏

  这些关联的信息恰恰给了医生最好的参考,也辅助医生做出判断的预测。医生可以浏览所有患者的电子病例和用药情况做为参考和借鉴。可以说,Oracle BDD正在大大地提高了大数据在医院门诊医治、医疗质量控制、医疗科研、流行病防治、资源使用效率和医院的管理水平和效率。

  Oracle BDD能够使大数据关联性分析化繁为简,同时还能加快数据价值的获取速度。BDD还支持地理位置服务和语言情感分析,让信息的关联进一步拓展到空间和情感。通过Oracle BDD可让包括分析团队和业务用户在内的更多人员轻松访问,实现大数据关联分析的普及化。

  如果您正在实施的大数据项目还没有获得成效,或是正在计划实施一个大数据项目,相信您可以从甲骨文大数据解决方案中找到一种便捷有效的方式,从庞杂的大数据系统中获取有价值的商业洞察。(作者系甲骨文公司副总裁及企业绩效、商务智能和大数据业务中国区总经理)

作者:高礼强 

来源:IT168

原文链接:化繁为简 洞察大数据的关联性

时间: 2024-10-16 10:55:10

化繁为简 洞察大数据的关联性的相关文章

如何洞察大数据的关联性

越来越多的人开始重视"数据技术(DT )", 也就是从传统IT的以事务处理技术为核心,逐步转向专注于数据本身."数字化","物联网"和"云计算[注]"让一切皆可"量化",所有的系统和设备每时每刻都在产生大量的.不同格式的.混杂的数据.利用好这些数据,可以让我们更全面的了解我们身处的世界. 利用大数据的关键在于缩短业务人员和数据之间的距离.我观察到国内越来越多的客户在计划实施大数据项目,他们其中大多数都有在&

5W1H(六何分析法)全景洞察大数据

引言 5W1H(WWWWWH)分析法也叫六何分析法,是一种思考方法,也可以说是一种创造技法.我们也对大数据问些问题,相信这也是很多中小企业面临的现实问题.大数据这个词也是从12年开始慢慢热起来的,经过4年的发展,如今,很多企业已经开始有自己的大数据平台,但是对于更多的企业是没有的. 笔者也在成都的云栖大会分享了笔者的一些思考与总结,由于后续没有录像放出来,应一些朋友.同学.用户的要求,笔者直接文字写出来.文字都是笔者经过推敲写出来的,肯定要比现场讲的思路更加缜密. 最后会涉及到怎么做,如果对前面

致青春VS杜蕾斯,用QQ空间电影大数据解读关联性

按照<黑天鹅>的理论,下一部我们想看什么电影,甚至什么是好电影,都没有人知道.<爆发>却说,人类行为93%是可以预测的,预见未来依靠的就是"大数据",这与QQ空间最近发布的<大数据里看电影>榜单的观点不谋而合.大数据不仅可以预测电影票房,还能分析出观众的关联喜好,如:热议致青春的人,还特别关注了杜蕾斯等,这期间的关联性是如何看到的?<大数据里看电影>榜单一一进行了解读. 电影是观众http://www.aliyun.com/zixun/a

大数据市场未来猛增速 数据洞察迫在眉睫

[天极网数据中心11月20日专稿]今天,IDC在京举行"2012年IDC亚太区大数据高峰论坛".IDC与与会者分享其最新调研成果<中国大数据技术与服务市场2012-2016年预测与分析>.IDC调研显示,中国大数据市场未来五年将以51.4%的速度增长.笔者以为,中国大数据市场未来猛增速,无论是谁,想押注大数据,从中"遇见未来的利润天堂", 懂得数据洞察迫在眉睫. [2012年IDC亚太区大数据高峰论坛] IDC调研报告解读一:大数据不是开玩笑 看量说话

大数据营销如何把时间和空间如何充分连接起来?

随着移动移动互联网的发展,碎片化和随时随地学习已经成为可能,与之伴随的大数据营销将成为一个新的课题,而移动互联网的时间和空间可以在不同的环境中产生不同的效应,那么如何在大数据营销的适合,如何更好地把时间和空间更好利用起来呢? 您的移动化战略准备好了吗? 今天已经是移动化营销的时代.我们经历了一个"时空解放运动",过去包括购物在内很多行为都是在特定的地点.特定的时间进行的,而今天顾客每时每刻都可以处于购物状态,每时每刻都是营销机会.去年的"光棍节",阿里移动端销售额占

开源大数据周刊-第12期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.3.4版本 (已经发布) 升级jdk到1.8 升级Hadoop到2.7.2 添加python2.7.1及python3.4版本 添加numpy库 支持Presto.phoenix.jstorm.oozie 支持Hadoop跟Hbase混合部署 支持深圳.上海机房 1.4版本(正在研发): 用户执行计划及集群运行状态自定义报警 1.4.1版本 集群整体运行情况的仪表盘 集群状态监控报警 资讯 5W1H(六何分析法)全景洞察大数据 我

1.58元/小时起快速体验 Hadoop &amp; Spark ,为你助力大数据计算

随着全球双11狂欢节的到来,阿里云优惠措施惠及中小企业.除充值返现外,E-MapReduce 同步限时打折.1.58元/小时起,快速体验 Hadoop & Spark 等,阿里云为你助力大数据计算. E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统.包括Hadoop.Spark.HBase,为用户提供集群.作业.数据等管理的一站式大数据处理分析服务. 赶快来这里,点击使用 限时打折优惠 测试体验版:最低至1.58元/小时,快速体验Hadoop.Spark 包

德勤:大数据时代下的新商务战略

 "一旦我们决定主动采取行动而非被动反应,可能性将数不胜数." 乔治 ·萧伯纳          大数据蕴藏着各种可能性.但套用乔治·萧伯纳的上述名言,企业领导者应如何主动采取行动而非被动反应呢?追求价值最大化的过程中,企业应主动出击,未雨绸缪.在适当的时机,通过大数据能够及时洞察在小数据中难以发现的新兴趋势,使企业在制定战略时更具前瞻性.   大数据应用现状  大数据的发展空间  事实上,在竞争激烈的环境中,大数据可能会迫使企业采取行动,而非被迫做出反应.然而,假设企业已对大数据应用

大数据时代的安全边界

ZDNet至顶网服务器频道 02月13日 新闻消息:根据IDC数据显示,目前互联网上的数据每年增长50%,每两年翻一番,全球互联网90%以上的数据是最近几年才产生的. 最早洞见大数据时代的数据科学家维克托·迈克·舍恩伯格在<大数据时代>一书中曾指出:大数据带给人类生活的益处是多方面的,不仅是人们获得新认知.创造新价值的源泉,还是改变市场.组织结构以及政府与公民关系的方法.但他同时也指出,大数据相比传统互联网,会给网络安全带来更多威胁,给用户隐私带来更大挑战. 大数据技术给数据使用的隐私问题带来