大数据之路(一)数据仓库也需要大数据

项目背景

最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发现,原来二者并不矛盾。

数据仓库与操作数据库

数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:

1)用户系统的面向性:客户与市场;

2)数据内容:当前与历史;

3)数据库设计:ER与面向主题

4)视图:当前与全景

5)访问模式:原子事务与只读操作

传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。

大数据的位置

数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。

1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题

2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。

3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。

遗留问题

大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...

本文作者:张子良

来源:51CTO

时间: 2024-09-20 00:36:03

大数据之路(一)数据仓库也需要大数据的相关文章

数据为桥迈向智能,渤海财险数据架构智能化演进

架构变革,建设AIOps前站为什么要AIOps? 简单来讲,一方面由于业务的发展企业的系统变得越来越庞大和复杂给运维带来了巨大的压力,通过智能工具代替人力是必经之路:另一方面,则需要通过新技术与智能算法的导入创造数据价值,助力业务决策,重塑企业价值.作为企业数据的载体,IT系统的变革无疑是智能化的前提. 拿保险行业来说,互联网创造了新的营销模式和机遇,如电商退运保险.航班延误险等使得传统的保险行业逐渐迈向互联网领域.然而这些业务模式导致保单数量在特定场景下的爆发式涌入,巨量碎片化的交易给系统建设

胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例

一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 CREATE TABLE IF NOT EXISTS t_day_detail( id STRING, lastday FLOAT, today FLOAT, highest FLOAT, lowest FLOAT, today_end FLOAT, today_jisuan FLOAT, updow

胖子哥的大数据之路(三)- 数据仓库的需求分析该怎么做

一.引言 基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度.本文针对大数据技术应用与数据仓库类项目需求分析阶段,需要完成的主要工作基于用户需求分析说明书的文档结构进行目录式展现.如需了解更深层的细节,可以做专项技术交流和咨询服务. 一.项目范围的界定 没有明确项目边界的项目是一个不可控的项目,如果项目规划阶段就没有界定明确的项目范围,项目实施过程过程中必将陷入万劫不复的境地,慎重慎重.基于大数据基

胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM

引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问题.它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉,希望能够给大家以启迪.参与交流请加群:347018601 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据

胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式

一.楔子 胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还是我本就苍老,顺应了IT行业的需要.25岁那年,曾被跟我一样高的漂亮美眉叫叔叔,从此再也不敢打小姑娘的注意,走上了重口味热爱阿姨级别女性的不归路:曾被三十五.六岁的同事阿姨说苍老:看你也就三十五六吧,那年我25:周一的时候,还有一个60后的同事问及我的年龄,他很含蓄的,明显带着保留的口吻问我:你是75年的吧?因为他一直认为和我一般大.然后...然后泪奔.关于体型方面也是个悲剧.三围相等,

品《阿里巴巴大数据实践-大数据之路》一书(下)

今天继续谈阿里的这本书,包括数据服务平台.数据挖掘平台.数据建模.数据管理及数据应用,希望于你有启示. 1.数据服务平台 数据服务平台可以叫数据开放平台,数据部门产出海量数据,如何能方便高效地开放出去,是我们一直要解决的难题,在没有数据服务的年代,阿里的数据开放的方式简单.粗暴,一般是直接将数据导出给对方,我想,现在大多公司的开放应该也是如此吧,虽然PaaS喊了这么多年,但真正成就的又有几个? 即使如阿里,在数据开放这个方向上的探索和实践,至今也有7个年头了,任何关于数据开放毕其功于一役的做法都

高考志愿季|如何从选专业开始 科学规划走上大数据之路

◆ ◆ ◆ 导语   随着全国各省高考分数线的公布,考生和家长也投入到了报考志愿的战争中.高薪.市场需求居高不下的数据科学家正在成为众多年轻人的理想职业.那么想要进入大数据领域并成为佼佼者,如何从高考选专业开始科学规划?   大数据文摘联合数据派(datapi)策划了本期专题,针对"数据科学家"的专业成长路径,采访了清华大学徐葳教授.阿里数据专家刘智勇.哥伦比亚大学数据科学在读硕士王昱森,希望他们从各自不同的角度,给想要走上大数据这条路的年轻人选择专业提供一些参考. ◆ ◆ ◆ 数据分

品《阿里巴巴大数据实践-大数据之路》一书(上)

7月有人推荐阿里巴巴刚出的这本书<阿里巴巴大数据实践-大数据之路>,到亚马逊一看才是预售状态,拍下直到8月才拿到. 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个小时,就把它读完了. 用"品"字有以下几个原因,一是市面上充斥着太多的大数据平台技术的书,诸如hadoop,spark等占据了大部,但对于如何管好大数据却缺乏真知灼见,二是这本书的确干货很多,诚意实足,明显来自阿里实操人员的经验,从作者是阿里巴巴数据技术与产品部就可知道,三是内容跟笔者的专

淘宝大数据之路

免费开通大数据服务:https://www.aliyun.com/product/odps 转载yanchun 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集.加工处理.数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(如图1),不同阶段面临了不一样的挑战,随着我的理解回顾下这些年大数据所经历过的故事: 图1 数据仓库平台发展三个阶段 第一个阶段:RAC时代