释放大数据价值,需要廉价大数据BI系统

这些年跟很多BI客户打过交道,在数据存储上一般有这些形式:
1. 开源数据库,大多数是MySQL;
2. 基于Hadoop平台的">HBase;
3. 直接保存为日志,一般用Zlib等算法压缩;
4. 商用OLTP数据库,例如Oracle。
5. 商用列式数据库,例如Sybase IQ。

这些客户遇到的典型问题如下:
报表运行太慢,所以一般要结合Scheduler模块在夜间生成报表,再推送给订阅者。这种应用很常见。但客户的交互需求被严重抑制。举个例子,一张夜间生成的报表是关于近三天的数据,客户看到了这个报表之后,也许想结合三天之前数据进行比对。
不过,要么现有报表系统不提供更改参数功能,要么提交更改的参数之后,报表运行非常缓慢,需要长达数十分钟甚至数小时的等待。
时至今日,BI从展现为主已经进化到交互为主,所谓探索式BI。传统BI系统,难以满足客户的需求。

针对以上情况,客户开始想办法解决。
有的客户选择了商用列式数据库,例如国内电力行业的很多客户,但也许是因为商用产品还不够好,在性能上依旧很难满足需求。很多查询性能,甚至还达不到交易数据库Oracle的水平。

有的客户在考虑一体机这一类商用产品,但费用很难承受。据我们了解,国内的某家IT制造商,花费数百万购买的一台一体机,只能运行两三个关键报表,还时常宕机罢工。听到这个情况之后十分惊讶。

有的客户在考虑MPP数据仓库这类商用产品,不过多数MPP数据仓库产品以数据存储量计费,费用依旧高昂。而且现有MPP数据仓库却依旧无法让客户进化到探索式BI,因为MPP数据仓库有自己的先天缺陷,尤其是关联(Join)。目前针对关联的性能优化一般有三种办法:
如果BI系统需要Fact Table同Dimension Table做关联,一般将Dimension Table复制在各个存储节点。
如果BI系统需要Fact Table同Fact Table做关联,一般采用Hash机制在各个存储节点分布Hash值相同的数据。这种办法需要提前预见,而且一旦数据分布算法确定下来,刚性而难以改变。
Materialized Query。这种老旧的办法生命力依旧旺盛。当某个Query运行代价高昂且很难被优化时,我们依然看到MPP数据仓库产品的技术白皮书中看到这样的建议。
迄今,MPP数据仓库给人一种价格虽高但不能完全解决问题的印象。在建设BI系统的时候,往往需要DBA进行非常精细的存储设计。这里的存储设计也是刚性的,一旦上线灵活性极差。

基于开源项目搭建大数据系统,虽然产品的获取是免费的。但对实施团队的人数和技术水平有较高要求,成本并不低,而且项目风险高。很多客户其实并不适合基于开源大数据项目,反倒应该基于商业产品搭建大数据系统,而不是赶时髦在Hadoop这样的项目上投资,商业产品能降低实施团队的专业要求,项目风险可控,所以成功率比较高。

在硬件技术(尤其是网络传输技术)并未取得巨大进步之前,我们的客户最需要的是实用的、廉价的大数据系统。这种大数据系统的预算不会动辄上百万,二十万之内就可以开始。
对于关联(Join)之类的问题,要求商用产品能合理应对即可。
数据分析往往具备连续时间段的特点,近一周近一个月近半年,绝大多数查询所访问的数据都连续集中在连续的时间段上。也就是说,基于时间段进行数据分割往往比基于Hash进行数据分割更容易优化。对于关联,在尚未出现完美方案之前,完全可以用MPP数据集市(Data Mart)的思路去解决。

释放大数据价值,需要廉价大数据系统。

时间: 2024-10-22 19:19:31

释放大数据价值,需要廉价大数据BI系统的相关文章

风控GPS定位数据价值有多大?

对于目前的GPS定位器,很多人不怎么看好他,但也有很多风投机构是特别的看好,每个人一天的历程,有3%的时间是在这个动态的,比如开车,比如XX? 站在每个角度去看待这些数据的话! 我们给出的评价是如下: 如果对于特定的行业,这些GPS数据无价之宝:因为他承载的东西太多,大数据的应用,行为分析,行为用途,找车用途,他都是非常有帮助. 如何看待这个行业的价值! 就拿融资租赁这个行业,汽车买卖出去了,直租出去:通过GPS的数据,我能知道客户在一个月内经常去的地方,经常停留的地方,是否有没有回家,有没有去

汽车+大数据=变形金刚?解读汽车大数据价值

车联网是大数据应用的最佳载体 车联网是基于"人-车-路-环境"四大要素的综合系统, 每一个要素自身都存在海量可挖掘数据,而每一个要素同时又是大数据应用和变现的对象.多重数据的叠加和交互关系使得车联网大数据价值巨大. 大数据应用代表向生态圈演进的新型车联网盈利模式. 目前车联网尚处于初期,商业模式仍然以 B2B 为主,能够直接付费的用户较少,而随着产业链数据的打通和互联网巨头的强势介入,后续数据运营将成为车联网向生态圈转变的关键. 车联网的大数据在预测方面可以发挥到极致, 如预测交通堵塞

评论:大数据价值的再思考 垄断与开放

大数据的价值已经不言而喻.从商业价值看,无论是电商的精准推荐,还是百度的网盟推广,亦或微博的精准营销,普通用户都能够直观体会到大数据给用户和商家带来的商业价值.从社会价值看,大数据让用户有能力了解http://www.aliyun.com/zixun/aggregation/35574.html">社会热点.预测流行趋势或是环境变化等等.随着大数据深入应用,这种价值还在不断地发酵,在社会的各个领域,如金融.制造.能源.商贸.物流.农业.气象等等,也在全球的不同地区,不同类型的数据集被相互连

大数据价值的再思考:垄断与开放

大数据的价值已经不言而喻.从商业价值看,无论是电商的精准推荐,还是百度的网盟推广,亦或微博的精准营销,普通用户都能够直观体会到大数据给用户和商家带来的商业价值.从社会价值看,大数据让用户有能力了解http://www.aliyun.com/zixun/aggregation/35574.html">社会热点.预测流行趋势或是环境变化等等.随着大数据深入应用,这种价值还在不断地发酵,在社会的各个领域,如金融.制造.能源.商贸.物流.农业.气象等等,也在全球的不同地区,不同类型的数据集被相互连

文思海辉:智慧数据避免企业成为大数据时代落伍者

不可回避,我们生活在一个大数据的时代.不仅美国等超级大国将大数据定位为国家战略,将大数据成为"未来新石油",商业企业亦能从大数据中寻找金矿,成为制胜未来的法宝. 在数据分析时代,数据已经给企业创造了价值.如很多年前,银行就可以通过数据分析,实现针对信用卡用户的精准营销,同样,在政府公共事业管理当中,数据能够帮助政府实现公共资源配置的优化,服务广大市民. 随着互联网和互联网的推动,我们从传统的数据时代跃入了大数据时代的.大数据具有4V特点--数据体量巨大(Volume).数据类型繁多(V

数据决策成共识 大数据产业期待点“数”成金

开放创造价值 应用仍需挖掘 大数据产业期待点"数"成金 互联网时代,大数据全面融入现代社会生产生活,并将深刻改变全球经济和安全格局.大数据不仅是一种技术,更是战略资源.我国大数据产业当前却面临着重复建设.数据封闭等发展瓶颈.因此,未来产业发展一方面要解决制度设计.数据开放等问题,另一方面也要深入挖掘市场需求,实现大数据产品高效应用-- 爱自拍的人消费能力也高吗?近日来自美颜相机<全球自拍粉皮书>的大数据显示:在中国,每天自拍100张以上的用户,其化妆品月开销3000元以上的

解析全球10大电信巨头如何玩大数据

对于电信运营商而言,没有哪一个时代能比肩4G时代,轻松掌握如此海量的客户数据.4G时代,手机购物.视频通话.移动音乐下载.手机游戏.手机IM.移 动搜索.移动支付等移动数据业务层出不穷.它们在为用户创造了前所未有的新体验同时,也为电信运营商挖掘用户数据价值提供了大数据的视角.数据挖掘.数据 共享.数据分析已经成为全球电信运营商转变商业模式,赢取深度商业洞察力的基本共识. 目前,全球120家运营商中,已经有48%的企业正在实施大数据战略.通过提高数据分析能力,他们正试图打造着全新的商业生态圈,实现

数据服务托起大数据产业链兴起

随着大数据概念深入人心,越来越多的企业开始认可数据存在价值.挖掘自身数据价值.获取外部数据是企业两大需求.但在实践中,企业发现两大需求存在同样问题,不论是自身数据还是外部数据,原始数据与有价值数据之间存在鸿沟,自身缺乏填平鸿沟的技术手段. 新兴大数据公司成为解决问题的答案,他们具备处理数据的经验和技术,可以将原始数据转化成能为业务提供支持的数据.数据服务产业链就此形成. 整个数据服务产业链可以分为三个部分,从上游的数据源到中游的数据服务商,再到下游的企业级用户.因为大数据公司大多成立时间较短,自

BAT三巨头:数据价值潜能需要被重视

BAT三巨头对于数据的处理都拥有各自的特点,首先看看百度:百度拥有用户搜索表征的需求数据.爬虫和阿拉丁获取的公共WEB数据:阿里巴巴拥有交易数据和信用数据:腾讯则拥有用户关系数据和基于此产生的社交数据.而且,BAT对于数据的应用和变现形式也各不相同:百度的数据源于数据自产+第三方合作,采用研究和实用结合的使用方式:腾讯的数据自产自销,主要为其产品所用:阿里巴巴看中的是数据的流通,做数据的集散地. 从数据产生的根源来看,BAT三大巨头拥有的数据大部分主要都是基于B2C 的服务而产生的.然而,随着网