MaxCompute大数据实践,电商数据仓库选择雪花还是星型模型?

作者:王永伟

规范化和反规范化

  当属性层次被实例化为一系列维度,而不是单一的维度时,此模式被称为雪花模式。大多数联机事务处理系统(OLTP)的底层数据结构在设计时采用此种规范化技术,通过规范化处理将重复属性移至其自身所属的表中,删除冗余数据。

  此种方法用在OLTP系统中可以有效避免数据冗余导致的不一致性。比如在OLTP系统中,存在商品表和类目表,且商品表中冗余有类目表的属性字段,假设对某类目进行更新,则必须更新商品表和类目表,且由于商品和类目是一对多的关系,商品表可能每次需要更新几十万甚至上百万条记录,这是不合理的。而对于联机分析处理系统(OLAP),数据是稳定的,不存在OLTP系统中存在的问题。

  对于淘系商品维度,如果采用雪花模式进行规范化处理,将表现为如下形式:

  将维度的属性层次合并到单个维度中的操作称为反规范化。分析系统的主要目的是用于数据分析和统计,如何更方便用户进行统计分析决定了分析系统的优劣。采用雪花模式,用户在统计分析的过程中需要大量的关联操作,使用复杂度高,同时查询性能很差;采用反规范化处理,方便易用且性能好。

  对于淘宝商品维度,如果采用反规范化处理,将表现为如下形式:

  如上所述,从用户的角度来看这简化了模型,并且使数据库查询优化器的连接路径比完全规范化的模型简化许多。反规范化的维度仍包含与规范化模型同样的信息和关系,从分析角度来看,没有丢失任何信息,但复杂性降低了。

  采用雪花模式,除了可以节约一部分存储,对于OLAP系统来说没有其它效用。而现阶段存储的成本非常低。基于易用性和性能考虑,维度表一般是很不规范化的。实际应用中,几乎总是使用维度表的空间来换取简明性和查询性能。

  更多数仓理论请关注:《大数据之路:阿里巴巴大数据实践 》

       推荐几种建模工具:ERStudio / ERWin / PowerDesigner

时间: 2024-10-28 18:01:53

MaxCompute大数据实践,电商数据仓库选择雪花还是星型模型?的相关文章

大数据重构电商商业逻辑

电商模式降低市场交易成本,同时也让消费者得到更多实惠,它的快速发展不仅变革及颠覆众多传统行业,同时也给人们工作生活带来巨大便利.然而,在4G网络通信技术及互联网飞速发展下,传统电商模式发展增速开始放缓,并出现两个显著变化:其一,发展渠道由一二线城市向三四线城市下沉:其二,以大数据.人工智能为首的新技术,给电商行业发展带来新鲜血液,成为拉动电商发展的新引擎. 电商渠道向三四线城市下沉 经过近十年发展,眼下,电商在一二线大城市的渗透率接近饱和,三四五线城市(乡镇市场)才是其发展的重点与下一个竞争的主

大数据为电商发展插上腾飞的翅膀

由国家发改委.工信部.商务部.网络安全和信息化领导小组办公室和贵州省政府共同主办的2016中国大数据产业峰会暨中国电子商务创新发展峰会将在2天后举行.与去年不同,今年的数博会首次创新性地将大数据峰会与电商创新两大会议组合在一起.期间,阿里巴巴.京东等集团高层将就"大数据应用"分享相关内容. 随着互联网消费经济的不断发展,大数据与电商的融合,已成为今后电商发展的大趋势.如何通过数据助力互联网经济再次快速的腾飞,似乎已成为当前电商企业急需解决的问题. 电商扎堆生长,大数据辅助决策运营 据&

MaxCompute大数据实践,电商数据仓库的星型模型和传统星型的区别

作者:王永伟   在Kimball所著的<数据仓库工具箱>一书中,对于维度模型设计采用的4步设计方法:1.选择业务过程 2.声明粒度 3.确定维度 4.确定事实. 在当前的互联网大数据环境下,面对复杂的业务场景,为了更有效准确地进行维度模型建设,基于Kimball的4步维度建模方法,我们进行了更进一步的改进. 第一步:选择业务过程及确定事实表类型 在明确了业务需求以后,接下来需要进行详细的需求分析,对业务的整个生命周期进行分析,明确关键的业务步骤,从而选择与需求有关的业务过程. 以淘宝的正向订

电商创想力报告:大数据成电商营销核心驱动力

在与众多的电商企业探讨电商营销新趋势的同时,阿里妈妈与DCCI互联网数据中心一起共同发布了2012<电子商务创想力报告>.报告显示,电商企业所运用的传统营销方式正面临变革,数据将成为未来电商营销的核心驱动力,以数据为核心重构与升级现有营销模式已经成为电商营销大趋势. 电商微利时代数据处理能力是关键 目前我国电商企业已经达到了临界点,经过了以持续融资.以价格换市场.效果及品牌营销.牺牲毛利率乃至持续亏损为特征的长期市场培育.起飞加速发展阶段之后,电商企业的利润将随规模增长.成本效率提升而显著提升

大数据成电商营销核心驱动力

1月23日,由阿里巴巴集团旗下阿里妈妈事业部主办的"开放 融合 创想"2012电商年度营销盛典在上海隆重召开.在与众多的电商企业探讨电商营销新趋势的同时,阿里妈妈与DCCI互联网数据中心一起共同发布了2012<电子商务创想力报告>.报告显示,电商企业所运用的传统营销方式正面临变革,数据将成为未来电商营销的核心驱动力,以数据为核心重构与升级现有营销模式已经成为电商营销大趋势. 电商微利时代数据处理能力是关键 目前我国电商企业已经达到了临界点,经过了以持续融资.以价格换市场.效

大数据:电商新武器

虽然商家都深知,每个顾客都有自己的需求,每个顾客都是一个细分市场.然而,真要针对每个顾客进行细分.提供个性化的服务,对大多数商家并不现实,个性化服务最终只是少数高端客户的专属.不过,以大数据为代表的新一代数据分析技术的出现,"一客一市场"在电子商务网站上正在变为现实.一些采用这些先进技术的电子商务网站正是通过这种个性化的服务,提供包括具有竞争力的产品推荐.贴心的购物体验,提升了网站的客户转化率,为其在激烈竞争中的市场中赢得先机. 网站商品精准推荐 网购者对电子商务网站的商品推荐服务并不

看“一袋金币”如何利用大数据改变电商企业融资?

2015年,又一场电商盛宴画上了句号,淘宝1000万中小卖家.京东近10万中小卖家以及其他垂直电商平台撑起来了4万亿人民币的销售额.在历经10年的疯狂增长之后,电商竞争愈发激烈,不论是拼货源.拼运营.拼推广,还是拼产品.拼品牌,这场竞争归根结底都是在拼钱. 大型电商平台,或许可以依靠资本不断提升竞争力,可明显弱势的中小电商卖家,却很难获得低成本的资金支持,借贷难.融资贵早已成为诸多电商企业挥之不去的心头病.钱从哪里来? 融资难题 对中小型电商企业来讲,银行贷款利率低,可以降低还款成本.但是银行传

玩转大数据区域 电商主打差异化

随着互联网的迅速发展,电子商务正在悄无声息地改变着人们的生活和消费方式.除了淘宝.京东.苏宁易购等大家耳熟能详的电商巨头外,乐利网 等颇具特色的区域电商也正在如雨后春笋般涌现,以"农村包围城市"的姿态杀入电商行业.有业内人士表示,"大数据+差异化"是区域电商在激烈的市场竞争中 脱颖而出的保障. 电商向三.四线城市渗透 据尼尔森最新研究显示,2016年第一季度的中国消费者信心指数达到了105,且下线城市消费意愿强劲,乡镇/农村地区消费意愿提升明显. "得益于

大数据让电商实现精准营销

过去几年,电商日渐成长为互联网经济的主要力量,并不断发展升级,引爆了一个又一个经济热点.在电商产业日渐成熟的今天,随着新的互联网技术的出现,电商又将朝什么方向发展? 昨日,在广州举行的全国首个电商专业展-2014(广州)国际电子商务博览会上,汇聚了参展企业300余家,包括唯品会.梦芭莎等本土龙头,还有国内大型电商京东.苏宁.1号店.当当网等,也有亚马逊.ebay等全球知名电商企业. 为期3天的会议将举办近40场活动,不仅有服务展示,更重要的是大量互动环节为电商人士提供思想碰撞的平台.记者观察到,