分布式数据仓库设计

做大做强事实表,做小做弱维表;

分布式模式-维度建模新原则

  (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;

      (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。分布式数据仓库的设计,恰恰相反,因为单表数据规模的问题,如果要满足分析和处理的性能,合理的按照业务进行数据的分表存储。如财务相关事件、账户相关事件,单独成表。更有利于数据的计算和分析

时间: 2024-08-30 17:22:04

分布式数据仓库设计的相关文章

数据仓库专题(4)-分布式数据仓库事实表设计思考---讨论精华

一.前言 陆续有各位兄弟参加大讨论,提出了各种问题,关于分布式环境下,维表和事实表设计,进行了比较深入的探讨,在此汇集整理,分享给大家.希望能有更多人参与尽力啊,共同探索分布式数据仓库数据模型的设计. 二.纪要 [活跃]北京-RTB-胖哥(1106110976) 10:21:36  分布式模式下事实表设计思考: 做大做强事实表,做小做弱维表: [冒泡]杭州-电子病历<ruanjizhou@qq.com> 10:23:31  能举例子说明吗? 您这句话,我似懂非懂,但是确实在临床上又有非常多的问

数据仓库专题(3)-分布式数据仓库事实表设计思考

一.前言 最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造.设计出一套真正适合分布式数据仓库的数据存储模型. 二.事实表设计基础       事实表记录发生在现实世界中的操作型事件,其所产生的可度数值.事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响.事实表中,除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也可以包含退化的维度键和日期/时间戳. 三.传统模式 以FS-LDM数据

数据产品设计专题(5)- 分布式数据仓库技术架构

一.分布式数据仓库技术架构 二.核心内容解读  (1)分布式数据仓库存储技术:hive+hdfs:  (2)事实计算平台技术框架:spark:  (3)数据挖掘算法技术框架:mllib + sparkR

腾讯TDW项目:开源的分布式数据仓库

本期,我们采访的是腾讯TDW开源项目负责人.腾讯高级工程师赵伟. 赵伟,腾讯数据平台部高级工程师,腾讯大数据平台分布式数据仓库(TDW)的技术负责人,开源软件爱好者,是腾讯内部Hive.Pig.PostgreSQL.ZFS等开源技术的引入和推广者.目前主要负责TDW平台的稳定性.性能.易用性建设,同时负责TDW对外开源工作. TDW,腾讯分布式数据仓库项目,在Hadoop的基础上开发的腾讯内部最大的离线数据处理平台.TDW支持Oracle功能兼容的SQL语法,支持PB及的存储和TB及的计算等.

如何实现高容量大并发数据库服务 | 数据库分布式架构设计

袋鼠学院和优云.阿里云联合举办的沙龙结束之后,总是有小伙伴们来问PPT内容,想要进一步了解Topic内容.(哦,对了对了,竟然还有小伙伴专门冲着袋鼠云去听沙龙,感动cry~~) 千呼万唤,忙成狗的袋鼠小妹终于把沙龙总结整理了出来(⊙o⊙) 本次沙龙的主题是"云时代下的运维管理实践",受邀请的演讲嘉宾,花名宏翊(经常关注袋鼠云的同学,肯定已经对这个名字很熟悉了),是袋鼠云首席数据库架构师,袋鼠学院数据库讲师. 呼应沙龙运维实践的主题,结合自己的专长领域,宏翊主要是从数据库领域来谈云时代下

数据仓库设计的21条原则[DMResearch.net]

设计|数据  [为方便自己阅读所以收集整理此处,www.DMResearch.net]   数据仓库设计的21条原则 --7个步骤,7个禁忌和7种思路 高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同.如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验.一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良

腾讯赵伟:Hive在腾讯分布式数据仓库的实践

腾讯高级工程师赵伟2009年毕业于哈尔滨工业大学,从学生时代起,他就对技术比较感兴趣,钻研过很多技术,包括反向工程/病毒分析 .linux/FreeBSD.C++等,偶尔还能通过学校的平台用这些技术赚点零花钱.这些经历都促进了赵伟对计算机技术的理解,也锻炼了他的动手能力. 赵伟在毕业后就加入了腾讯数据平台部,进入腾讯后,他参与进了当时正在规划中的腾讯分布式数据仓库(TDW)项目,通过与TDW的一起成长,他越发深刻的感觉到通过前沿的计算机技术可以使人们的生活更加便利,可以使企业的运营成本不断降低,

HIVE在腾讯分布式数据仓库实践分享

HIVE在腾讯分布式数据仓库实践分享 赵伟 2012-12-1 一.腾讯分布式数据仓库介绍 二.HIVE在TDW中的实践 三.TDW HIVE接下来的工作 temp_12120611487766.pdf

对比两种数据仓库设计架构

Bill Inmon和Ralph Kimball,在上学的时候接触到的两个名字,对于大多数人来说,这两个美国人显得有些陌生,但是在数据库领域,他们可是响当当的人物.Bill Inmon,被称为"数据仓库之父",现在可以在网上看到他大把大把的学术性论文和文章,Wikipedia上对他的介绍应该是非常全面的:在上世纪80年代,Inmon的<建立数据仓库>一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的.集成的.与时间相关的.不可修改