似乎所有人嘴边都挂着“大数据”这个词。围绕大数据这个主题开展的讨论几乎已经完全压倒了传统">数据仓库的风头。某些大数据狂热者甚至大胆预测,在不久的将来,所有企业数据都将由一个基于 Apache Hadoop 的系统托管,企业数据仓库 (EDW) 终将消亡。
无论如何,传统数据仓库架构仍在不断发展演化,这一点不容置疑。一年来,我一直在撰写相关的文章和博客,但它真的会消亡吗?我认为几率很小。实际上,尽管所有人都在讨论某种技术或者架构可能会胜过另一种技术或架构,但 IBM 有着不同的观点。
在 IBM,我们更倾向于从“Hadoop 与数据仓库密切结合”这个角度来探讨问题,两者可以说是天作之合。试想一下,对于采用传统数据仓库的企业而言,大数据带来的机会就是使之能够利用过去无法通过传统仓库架构利用的数据。
但传统数据仓库为什么不能承担起这个责任?原因是多方面的。首先,数据仓库的传统架构方式采用业务系统中的结构化数据,用它们来分析有关业务的方方面面。对这些数据进行清理、建模、分布、治理和维护,以便执行历史分析。无论是从结构方面考虑,还是从数据摄取速率方面考虑,我们在数据仓库中存储的数据都是可预测的。
相比之下,大数据是不可预测的。大数据的结构多种多样,对于 EDW 来说数量过于庞大。尤其要考虑的是,我们更习惯于浏览大量数据来查找真正需要的信息。不久之后可能又会决定丢弃这些数据,在某些情况下,这些数据的保存期限可能会更短。如果我们决定保留所有这些数据,则需要使用比 EDW 更经济的解决方案来存储非结构化数据,以便将来使用这些数据进行历史分析(这也是将 Hadoop 与数据仓库结合使用的另一个论据)。
大数据给许多客户带来了新的机遇,Hadoop 如今则为我们提供了运用新数据来源,使分析更加智慧的能力。但这个新的疆界与传统数据仓库架构形成的疆界是互为补充的关系,而非一者取代另一者。我们仍然要提供所有业务领域(财务、营销、销售、客服等)的传统分析,这些分析不可能迅速被淘汰。但是,需要认清这样一个事实:我们应该拓展分析菜单,使之包含提供更多洞察的新来源,以及允许我们实现过去不可能实现的目标(例如情绪分析)的新工具。
我相信,大数据将成为 EDW 架构改革的主要推动力之一,但绝非独一无二。设备的持续增长、对于价值实现速度的更高要求以及对于我们的解决方案中的敏捷性甚至是简单性的要求都将在这样的改革中起到重要作用。
请思考一下:敏捷性和简单性?这绝不是我们在构造企业数据仓库时频繁提到的字眼!然而,事实显而易见。许多大型 EDW 项目都无法发挥全部潜力,因为它们过于复杂,敏捷性远远低于企业的预期。另外一个事实是:切实利用分析来推动决策的企业业绩更好。这些企业的复合年增占率 (CAGR) 比其他企业高 49%,利润增长可达到其他企业的 20 倍,投资回报率也要高 30%。毫无疑问,大多数企业都在竭力实现整个目标。
图字:
Revenue growth 5 year cagr(2004-2008):收入增长 5 年 CAGR(2004 至 2008)
profit growth 5 year cagr(2004-2008):利润增长 5 年 CAGR(2004 至 2008)
return on ivested capital 5 year average(2004-2008):资本投资回报率 5 年 平均值(2004 至 2008)
超过 49% 超过 20 倍 超过 30%
Finance organizations with business insights:具备业务洞察的财务机构
all other enterprises:所有其他企业
建立这种协调关系的秘诀就是深刻理解当前具有的分析类型和未来的需求。过去,我们对于 EDW 的构想就是一种繁荣昌盛的生态系统。如今,我们已经从采用专门提供企业数据的架构转变为采用提供企业数据和智慧分析的架构。
想想所有类型的数据和所有类型的分析。这就是如今的智慧分析!
我们已经取得了长足的进展。让我们继续前进!