大数据供应商请不要贬低数据仓库系统

  我发现许多大数据供应商总是在通过贬低数据仓库来证明自己技术的优越性,我一向很讨厌这种营销方式。他们总是说数据仓库系统过于庞大、价格高昂且不够灵活,而他们的技术则快速、灵活且价格低廉。最后他们会自鸣得意地说:“来买我们的产品吧,我们会帮你摆脱数据仓库的困扰。”

  他们总在暗示你,是技术,或者解决方案本身出了问题。

  我承认,数据仓库本身也有很多的问题。设计一个数据仓库已经不容易,而要实现一个数据仓库就更加难上加难了。其中一些批评是对的——数据仓库建设周期长、成本高昂且很难修改。但是,这并不是说它没有价值,应该被取代。

  业务人员是释放数据仓库价值的关键

  本质上来讲,数据仓库并不是一项技术或一个工具而已。它主要是一种以电子方式(如数据)整合组织资源的业务流程,所以它是一个整体,而不是各种组件的松散堆砌。如果没有数据仓库,那么业务主管就只能盲目行事,通过一些错误数据,或者在完全没有数据的情况下作出重要决策。

  虽然我们需要用一些技术来实现数据仓库,但是技术并不能等于业务目标,也无法从企业发展的角度看待数据。只有业务人员才能做这些事情。事实上,比起创建技术基础架构,更具挑战性和更耗费时间的工作是让业务人员认可核心业务实体的定义。数据仓库设计不当或性能不佳都不应该归咎于技术或技术人员,问题的根源在于执行主管在创建通用业务数据词典时没有足够的领导力、远见和耐心。

  数据仓库系统可以提供整洁的数据

  从技术角度来讲,数据仓库只是一个存储数据的知识库,它存储了从组织中重要应用程序和系统收集的整洁、完整和语义统一的数据。我们可以用各种不同的技术和工具来实现一个数据仓库,包括关系数据库、主数据管理中心,甚至是开源大数据处理架构Hadoop等。每一项技术都具有其他技术所不具备的优点,但同时没有任何一种技术能够独立解决问题。不过,问题的关键并不在于技术的好坏。数据仓库实际上是一种抽象,是一些整洁的分析数据的逻辑表现,执行主管将利用这些数据来作出决策。

  可是,似乎大数据社区中有许多人主张完全抛弃数据仓库。或许他们的真正意思是指不再使用传统关系型数据库和商务智能工具来存储及查询业务数据。这样没有问题——我们欢迎这样的做法。新技术总是带来一些好处。但是这仍然无法消除我们想要获得整洁、完整和可靠数据的需求。

  大数据供应商需要说明的是,他们将如何增加企业洞察力,提供标准报表。很遗憾大多数人都忽略了这个需求,甚至认为这一点在整个大数据规划中无足轻重。

  一个分析生态系统的3大支柱

  之所以产生贬低数据仓库的声音,我想大数据社区放大了数据仓库本身的作用是原因之一。数据仓库只是一个的成熟分析生态系统中几个资源池之一,它和探索/发现和事件驱动警报系统是并列的(参见图-1)。

  简而言之,数据仓库的作用是帮助业务人员监控现有流程和活动,发现一些关键的趋势与异常情况;它基于一个专门用来解决一些已知问题的报表和分析环境。虽然数据仓库也支持一些分析功能,但是它的用途并不是用于解决新问题和意外问题。这属于探索和发现环境的工作——这正是现代大数据运动的特有功能。它能够让有影响力的用户利用新旧数据,执行复杂查询,然后应用机器学习算法,从而产生新的洞察力。同时,警报环境能够处理来自大容量事务或空间里处理系统的事件驱动数据,然后在数据触发预定义规则时给用户或下游系统发出警报。

  图1缺少的是技术。正如前面所提到的,我们可以使用各种技术和工具实现数据仓库系统(及其他环境)。具体的选择主要取决于组织的遗留系统、预算和风险容忍力。但是,无论决定使用什么技术,一定要理解它是如何整合在一个设计恰当的分析生态系统中的。

  最后,我们不能让大数据支持者诋毁数据仓库。它在任何分析生态系统中都发挥着重要作用。数据仓库是交付企业数据视图和驱动标准报表及分析的运输工具。谁能离开得它呢?

时间: 2024-09-23 01:56:16

大数据供应商请不要贬低数据仓库系统的相关文章

dw-PB中怎么判断数据窗口导入excel的数据中有申请号是重复的,我这么写表达式老是错误,请大神指教

问题描述 PB中怎么判断数据窗口导入excel的数据中有申请号是重复的,我这么写表达式老是错误,请大神指教 for i=2 to ll_rows li_count =dw_list .insertrow(0) dw_list.setrow(li_count) //申请号5 dw_list.object.申请号[li_count] = ExcelServer.ActiveSheet.Cells[i,5].text next ll_found = dw_list.Find("dw_list.obje

数据库迁移-请DBA大神进,有关千万数据迁移的问题。

问题描述 请DBA大神进,有关千万数据迁移的问题. 公司最近有个需求 ,需要将一张老系统数据里某张表大概4000万数据迁移到新系统中,迁移过程中还需要对老表中的字段特殊处理以后再插入新表.而且老数据库表有分表,新系统也建立对应分表迁移. 我是这样做的 用了3个存储过程,入口调用另外2个那样 1.根据老系统中规则 在新系统中创建好分表. 2.将老系统中分表的数据插入到新系统中对应的分表. 3.老系统未分表的数据插入新系统中. 做了测试,存储过程逻辑是没有问题的,现在的担心是性能瓶颈问题, 整个采取

2012年大数据供应商市场情绪依然乐观

尔本,2013年1月23日-据Ovum公司,去年大数据供应商市场情绪仍然保持积极,尽管怀疑论者认为这一话题已经被"过度炒作". 伴随MongoDB声称已经吸引了传统上依赖MySQL的Web开发商的大部分注意力,大数据这一时髦词汇在2012年甚至超越企业IT领域成为商业出版物和期刊最为青睐的一个热门话题. 全球分析公司Ovum的一份最新研究报告*分析了由DataSift收集的数据:2012年,这些数据将Twitter关注以及供应商(和开源组织)情绪等级与大数据市场关联起来.Ovum惊奇地

大数据战略成败关键在于数据中心基础设施

为大数据选择新的硬件.存储和其它数据中心基础设施,这是IT专业人员们所面临的新挑战. 大数据是具备空前规模和形式的非结构化信息.它包括视频.图像,以及半结构化的数据(例如在Web上常见的电子邮件和文本).随着基于传感器的移动Web监视设备和输出数据越来越多,可用的数据量将继续呈指数级增长. 推行大数据战略的压力往往来自高层,因为管理者相信,能有效运用数据的企业将比落后者具备更大优势.大数据战略需要数据中心基础架构作出的改变主要有五点: 一.支持大数据的硬件 大数据导致的存储需求量每年都将增长60

XTools CRM:从粗放大数据中提炼精确厚数据

ZDNET至顶网CIO与应用频道 07月28日 综合消息:随着互联网时代的到来,越来越多的社交方式开始普及,人们在网上留下的"痕迹",不断地以数据的形式被记录下来.许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为"大数据"的海量信息.与此同时,随着智能设备和移动网络的发展,人们在线时长正在不断增长,于是这些数据以惊人的速度增长,以至于我们可以更快的去了解一个人.更诱人的是,对大量数据的分析预测和判断,这将会产生商业财富. 但对于企业生

秦始皇:请叫我数据治理专家

历史背景 经过春秋时期旷日持久的争霸战争,周王朝境内的诸侯国数量大大减少,诸侯国互相攻伐,战争不断.三家分晋后,赵国.魏国.韩国跻身强国之列,又有田氏代齐,战国七雄的格局形成,七国分别是:齐.国楚国.燕国.韩国.赵国.魏国.秦国. 公元前238年,秦王政在李斯.尉缭等人的协助下制定了"灭诸侯,成帝业,为天下一统"的策略,用了10年的时间,先后消灭韩.赵.魏.楚.燕.齐六国,结束了春秋以来长达500多年的诸侯割据纷争的局面,建立了中国历史上第一个君主中央集权国家--秦朝. 秦始皇--20

大数据离不开 “厚数据”

当前,全世界各种规模的公司都在被告知需要大数据 -- 大数据是驱动下一轮创新的源动力.风投公司专门确立针对大数据的投资组合,初创公司对外宣称自己是 "大数据" 公司,成熟的巨头企业会成立专门做大数据项目的数字创新团队.面对先进的计算数据收集和分析能力,许多初创公司和大型企业不惜以牺牲人的洞察为代价,过度地专注于收集定量数据.这种把定量数字凌驾于定性洞察之上的做法着实令人担忧.我就曾亲眼见证了一家公司为此遭受到的重大影响,没有任何一家公司会希望遵循这种做法. 2009年 的时候,我在诺基

主数据与大数据的结合才能提升数据效益

当越来越多的企业采用大数据技术.云计算以及社交媒体来发现客户需求.拓展业务时,他们需要主数据管理(MDM)来追随这些大趋势,从数据中萃取更大的业务价值,进而优化品牌管理,拓展市场新渠道,打造企业核心竞争力.行之有效的主数据管理不仅能够提升企业的数据质量,更可以和大数据技术紧密结合. 主数据是企业核心业务实体 主数据是企业运营中担当着关键角色的核心业务实体,它们是系统间的共享数据(例如客户.产品.供应商.账户和组织部门相关数据),分散地存在于企业的各业务系统中,也是企业内部能够跨业务.跨系统重复使

《Spark快速大数据分析》—— 第五章 数据读取和保存

由于Spark是在Hadoop家族之上发展出来的,因此底层为了兼容hadoop,支持了多种的数据格式.如S3.HDFS.Cassandra.HBase,有了这些数据的组织形式,数据的来源和存储都可以多样化~ 本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第五章 数据读取和保存,如需转载请自行联系原博主.