HDS工程师手记——用“数据”遇见可知的未来

美国物理学会院士巴拉巴西的《爆发》,在最新的时间、最新的领域,讨论了一个最古老的问题:到底应该用决定论的观点,还是用非决定论的观点,看待人类行为?作为复杂网络研究的权威,巴拉巴西在大数据的新背景下,认为数据、科学以及技术的合力,会使得人类变得比预期中容易预测得多。就象泰勒格迪做到的那样。在日趋精密的数字技术条件下,有了从四处搜集来的信息,我们不会再把人类的行为视为互不相关、随意偶然的独立事件。《爆发》作者的观点:人类行为93%是可以预测的。例如,通过对大量数据的分析追踪和预测每个公民的行踪。比如电梯摄像头拍到你11点20分离开了公寓大楼,那么10分钟后在你家附近地铁站的监视画面中就很有可能搜寻到你。这并不只是科幻故事,而更可能是大数据时代人类真实的生存现状。在大数据时代,通过对各种数据的充分了解,预测个体的行为可以变得非常容易。

遇见可知的未来

如果最变化无常的人类行为93%是可以预测的,那么,未来其它的事情是不是也可以预测呢,是不是预测的准确率也能达到93%呢。假设未来能预测93%,我们是不是可以认为我们的未来是可知的,我们能遇见可知的未来?

在不远的未来,未来世界的预测准确率将超过93%,天气能预测准确率能达到93%, 地震能预测准确率超过93%,疾病预测准确率超过93%,甚至股市准确率超过93%。我们的未来就是可知的未来。

有数据才能遇见未来

大家都对遇见可知的未来充满期待,但怎么才能遇见可知的未来呢?这就是时下非常热门的话题:大数据分析。大数据分析流程如下图所示:

大数据分析流程

从上图可以看出,对于大数据我们期待商业智能,就像我们想吃美味可口的食物,我们需要厨房(分析平台),需要厨师(行业知识和分析算法),但最重要的是我们要有食材(数据),食材才是最根本、最重要的东西。我们要知道数据在哪里,并且知道如何从浩如烟海的数据中挑选出对我们有用的数据。例如食材很多,要能精确的挑选出哪些食材是做宫保鸡丁的最佳食材。

传统的数据仓库技术,如BA存在了几十年,但是它主要是处理结构化数据,主要提供商业分析,而现在发展为BI,Business Intelligence的英文缩写,中文解释为商务智能。BI最终展现给用户的信息就是报表或图视,数据集合就象玩具“魔方”一样,可以任意快速的旋转组合报表或视图。从内容上BI除了包含结构化数据,还包含非结构化数据,如互联网,社交媒体和物联网(IOT)数据。这是大数据的特点。

IOT – 是Internet Of Things的缩写,字面翻译是“物体组成的因特网”,准确的翻译应该为“物联网”。物联网(Internet Of Things)又称传感网,“物联网”(Internet Of Things)指的是将各种信息传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。其目的是让所有的物品都与网络连接在一起,方便识别和管理。物联网的兴起将带来数据爆炸增长,也将对我们大数据分析和未来社会的预测产生影响。

数据处理的关键- ETL

使用数据最关键是数据梳理 – ETL。从浩如烟海的数据中,提取对我们有价值的数据和信息。ETL,(Extract Transform Load),它实现数据的抽取,转换及装载工作。ETL在技术上主要涉及增量、转换、调度和监控等几个方面的处理:

抽取:将数据从各种原始的业务系统中读取出来。

转换:按照预先设计好的规则将抽取的数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。

装载:将转换完的数据按计划增量或全部导入到目标数据库中。

现在的大数据分析中,ETL是基础也是关键,HDS公司最近收购的Pentaho就能够实现各种数据的ETL整合。如下图所示:

从上图可以看出,Pentaho可以将传统的客户信息,交易信息等结构化数据,ETL(PDI)到标准的DW库中,也可以将IOT数据,地理位置信息(Location), 互联网和社交媒体信息ETL(PDI)到规定的目标中,如MongoDB和Hadoop中,并且能够集成传统数据和新的社交数据,为大数据分析提供全新视角。

拥有大量的数据,我们可以遇见可知的未来,数据ETL加工、转换、调度和处理是大数据分析的基础,HDS的Pentaho能够实现各种数据的ETL加工、转换、调度和处理,为企业客户大数据分析助一臂之力。

本文作者:谢勇

来源:51CTO

时间: 2024-07-29 07:23:09

HDS工程师手记——用“数据”遇见可知的未来的相关文章

HDS经验之谈:大数据是“一把手”工程

文章讲的是HDS经验之谈:大数据是"一把手"工程,大数据,是炒作,也是期待.这是HDS委托经济学人智库(EIU)针对亚太区用户做的大数据应用调查得出的结论,也是亚太区用户大数据应用情况的真实写照. 调查报告主要有四点结论:第一,众多企业已经认识到大数据分析的价值,近半数受访者认为大数据至少可将企业的营收提升25%以上;第二,大数据应用的进展低于预期,50%以上的企业并没有制定明确有效的大数据战略;第三,81%的企业一线员工无法获得所需数据;第四,企业内部存在的诸多问题阻碍了大数据的应用

当云计算和大数据遇见量子科学

不久前在杭州召开的云栖大会上,阿里云和中科院共同宣布了将携手推进量子计算与量子通信在云计算和数据处理方面的研究.由于量子科学概念比较深奥,加之此消息也没有立竿见影的商业效果,所以相比大会上的其他消息,并没有引起媒体很大的兴趣.但事实上,将量子科学引入云计算和数据处理,将会是计算领域内里程碑式的一页. 量子科学的通俗基本原理 对于大学以后的物理学了解不多的人,可能会觉得量子科学很难理解,因为在量子科学领域,许多理论都只适用于微观尺度,并且与我们日常生活的经验相违背.比如,在量子尺度下,物质在同一时

个人数据才是大未来 所有生意都是数据生意

精彩观点 下一个时代是氧气的时代.在不久的将来,我们通过无线网络来传输的信息总量就会超过通过有线网络来传输的信息总量. 未来,数据会更多地在每个人的智能设备之间传输,不会回到发射塔.交换机或者"云"里面.到2020年,超过2/3的信息传送距离不会超过1公里. 很多人说:我不会去跟别人分享我的医疗数据,财务数据,性生活.但这只是你现在的观点.今后人们会去分享这些数据,我们现在还处于分享时代的早期. 无人驾驶汽车今后将变成你的新办公室,你用汽车接收的数据将比你坐在写字楼里接收的数据更多.

马云:大数据云计算是阿里未来核心战略

本文讲的是马云:大数据云计算是阿里未来核心战略[IT168 云计算]北京时间10月8日晚间,阿里巴巴集团董事局主席马云和CEO张勇在年报致投资者的公开信中表示,全球化.农村经济和大数据云计算将成为阿里未来十年的发展大方向,并表示将不惜一切投入发展数据技术,让数据和计算能力成为普惠经济的基础. "狭义的电子商务仅仅是今天阿里巴巴集团战略的一部分."马云在公开信中表示,阿里巴巴的战略是打造未来商业社会的基础设施,电子商务只是整体战略的第一步,"我们非常明白只有依靠互联网技术和大数

大数据时代:预测未来5年各行业发展趋势

大数据及互联网思维给了人类做整体未来决策有了超越以往的前所未有的体系支撑,用今天大数据的思维去重新提升传统行业,将对已有行业的潜力再次挖掘,甚至彻底改变这一行业. 1.零售业 传统零售业对于消费者来说最大的弊端在于信息的不对称性.在<无价>一书中,心理实验表明外行人员对于某个行业的产品定价是心里根本没有底的,只需要抛出锚定价格,消费者就会被乖乖的牵着鼻子走. 而C2C,B2C却完全打破这样的格局,将世界变平坦,将一件商品的真正定价变得透明.大大降低了消费者的信息获取成本.让每一个人都知道这件商

数据造化 智见未来——2013中国存储峰会盛大开幕

12月11日,以"数据造化 智见未来"为主题的2013中国存储峰会在北京盛大开幕.作为中国信息产业界思想与技术的盛会,2013中国存储峰会得到了中国软件行业协会.中国计算机学会存储技术专业委员会.武汉国家光电实验室和国防科技大学计算机学院的大力支持.大会现场,来自用户.厂商.第三方机构的专家共聚一堂.碰撞思想,推动中国存储产业和IT产业的发展和变革. 点击进入2013中国存储峰会专题直播 大牛云集 打造空前盛宴 作为存储界和IT界最具影响力的思想高地,本届峰会聚集了国家政策研究机构.业

“大数据”是重塑招聘未来的首要趋势

为了规划未来,您需要深入了解同行的情况,做到知己知彼. 本报告的宗旨正是如此,我们希望能为您这样的招聘负责人解读中国及全球最重要的招聘指标及趋势.本报告基于中国 278 位企业招聘负责人对问卷的答复. 所有受访者的职位都是经理或以上级别. 人才招聘在高管工作中占有重要地位.招聘负责人认为自己的部门正在帮助塑造公司的未来. 在中国,超过 90% 的招聘负责人认为人才是公司的头等大事. 招聘团队的任务较去年轻松,且今年注重招聘质量.只有 50% 的招聘负责人表示他们团队的招聘数量将有所增加,这一数字

大数据造车,未来之势还是噱头之谈?

文章讲的是大数据造车,未来之势还是噱头之谈,大数据,一个神秘却广为流传的名词,和前几年流行纳米概念一样,大大小小的行业开始涉足大数据的应用和处理,不管他们事实上到底对大数据有多少的掌握,只要是新型的事物和名词,在诸多行业都是一个赢得关注的吸引点,大家开始一窝蜂的涌入,然而又有几个最后做出了理论上和实践上经得起论证的东西呢? 当今的汽车相关产业,也是引领潮流或者被潮流引领的一大领域,中国有了大面积pm2.5污染,便有了很多厂商一股脑的用上了车内PM2.5过滤装置,然而很多人并没有用过,或者效果民泯

数据中心碰撞云计算 未来该如何?

我们称这个时代为大数据时代之时,也将其称之为云计算时代,这究竟是谁的时代?数据中心碰撞云计算 未来该如何?我们时常提到的数据中心是指一整套复杂的设施,它包括计算机系统和其它与之配套的设备,还包含了冗余的数据通信连接.供配电及制冷设备.监控设备以及各种安全装置.   目前,数据中心是国内推进的新一代信息技术产业发展的关键因素,而与此同时,云计算.物联网.电信重组.三网融合和基于移动互联网的应用也是发展迅速,SNS.电子商务.视频等业务的大规模增加给数据中心带来了持续的需求. 据悉,国内每年数据中心