文章讲的是高峡:数据仓库下数据库设计模式变迁,2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。今天是12日下午的专场8:数据仓库设计和管理。对于听了三天大会的朋友来说,真是辛苦了,短短三天,脑子塞了满满的数据库、大数据、数据分析、数据库设计模式等知识,我在这里奉劝一下,走的时候留点神,避免情绪过于激动,动作过于猛烈,以防知识从脑子里掉出来,哈哈!
▲点击进入第五届中国数据库技术大会(DTCC 2014)报道专题
笔者作为大会主办方的报道编辑,也总算是熬出来了。相比每个技术爱好者、技术大牛们的收获而言,小弟我收获了一份大会5年亲身经历的情感。大会结束、明年再来,且行且珍惜吧。
言归正传,在今天下午的内容专场,高峡老师重点的内容大致包括:1.OLAP产生的背景 2.范式设计 3.反范式 4.OODB 模式 5.EAV Entity Attribute Value 6.PIVOTING 7.XML 8.No-Schema 9.Relational Database 的发展。
我在这里作为偏离技术比较远的记者来说,只能走马观花的介绍啦,请各位看官指导,批评。不过需要补充的是,看不太懂,或者不尽如意的时候,您可以稍晚在官方下载PPT,那样的话会更全面。
开场,高峡老师说:“做大数据出什么书好?出商业模式的书,比如《大数据在洗脚城的应用》,如果在大俗的情况下做到大雅,这样的话国家对于数据治理的程度该有多高?因此,技术人才要锤炼商业模式,单纯的写代码不太高明。除了技术商,还要有财商。还是多看看商业场景吧。”
技术男要看清商业场景和商业价值
手中只有锤子,看到的都是钉子,这是一种工匠精神。现在是大数据的环境,先看在关系型数据库里沉淀了什么东西。技术人要懂得挖掘技术背后的商业模式。本文主要介绍了其中的部分技术和商业模式,更多的请会后下载PPT。
1、集合思维,沉淀的最深刻的思维。关系型数据库中引入了序列表,非常有价值。把一段字符串按照分隔符分开,非常简单,写一个逻辑就OK了,但是在数据中不要这么做,而是要引入序列表,有一个集合思维,也是关系型数据库屹立不倒的原因。程序员的思维是引入光标,而数据库的思维则是集合思维。
2、范式设计,有几个范式规范了关系型数据中有价值的东西。比如微博中的数据库设计也是通过增加冗余实现。还要保证完整性。微博中最重要的动作是看用户的时间线,看一个帖子的时间线,这就是微博的商业场景,规范了整个微博动作的最重要的两个动作。这就涉及到了分区。对于时间线的把握非常好,越近的越有价值,这就是Twitter的成功之处。
大家碰到商业场景时,要看清楚行为分析模式分为哪几类。
3、KV存储,最典型的是WordPrees。使用WordPress可以搭建功能强大的网络信息发布平台,但更多的是应用于个性化的博客。针对博客的应用,WordPress能让您省却对后台技术的担心,集中精力做好网站的内容。对用户的需求进行描述,一张表在关系型数据库中做不出来,在大数据的数据库中可能做得出来。
4. EAV(Entiry-Attribute-Value)
案例:Magento
Magento 是一款新的专业开源电子商务平台,Magento电子商务平台采用php进行开发,使用Zend Framwork框架。Magento设计得非常灵活,具有模块化架构体系和丰富的功能。易于与第三方应用系统无缝集成。在设计上,包含相当全面,以模块化架构体系,让应用组合变得相当灵活,功能也相当丰富。
功能:1.强大的商品属性组合;2.购物车价格规则;3.灵活的模板系统;4.多网店系统
;5.完善的插件体系;6.安全加密;7.企业应用集成。
架构
5. FTS – Full Text Search
索引都是建立在基础的架构,比如Google和雅虎等等。倒排文件索引:行式数据库中比较困难是因为倒排做得不好。
案例:
6、Pivoting 行列转换
数据库论坛问得最多的问题、数据库行列本身的限制。解决Pivoting问题:在二维数据库里面解决Pivoting
7. XML
Impendence Mismatch 阻抗失效、Multiple Result Set 多结果集的串接。
案例:RightNow SAAS CRM
顶级SAAS CRM供应商,目前有十几万的客户,甲骨文15亿美元收购云客户服务提供商RightNow。
应用场景:支持自定义客户属性、快速查询(属性的组合查询)
8. 列式数据库
Sybase IQ 排名列式数据库第一
IQ通过列存储、革命性的位图索引方法以及智能的动态访问技术实现了快速的查询响应速度,比传统的数据库查询速度提高10-1000倍。
减少磁盘I/O IQ通过独特的列存储,索引与压缩技术,大大减少了查询中的磁盘I/O次数,其杰出的磁盘I/O效果带来了更快速的查询反应,更高的吞吐量和更低的成本。最后被SAP以58亿美元收购。
如何做到精准营销
必须做客户分群:从动态的非结构化的数据形成结构数据,然后卖给客户,这才是商业模式。微博为什么不盈利?因为它缺乏结构化的人群标签数据,无法做精准营销。微软用20亿美金做市场调研,问用户希望下一版Office希望增加哪些功能。
应用场景:需要300万行的客户数据、几千个客户属性、需要根据任何客户属性的组合进行查询、行式数据库的局限(索引的限制(256))。
解决方案:从行式数据库转化为列式数据库、查询时间提高50倍、压缩率高达1:30。
9、数据仓库
定义:数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
特征:面向主题、集成、时变、不可更新。
案例:BOA 美洲银行的数据仓库
美洲银行就是使用NCR Teradata建立数据仓库并获得成功应用的一个例子。该银行在几年的时间内曾先后兼并过十几家小银行,由于拥有的30多个OLTP业务系统太多而且分散,管理十分不容易,要找到准确的业务数据也很难。举例来说,它要准确地了解各个分行的客户资料就要花很多的时间,最后的结果还不一定完全准确。为此,美洲银行投资Teradata建立了一个中央的数据仓库,把各个分行系统中的数据都集中到中央库来,一些以前要几个星期才能得到答案的业务问题现在只需要几分钟甚至更少,效果非常明显。
作者:景保玉
来源:IT168
原文链接:高峡:数据仓库下数据库设计模式变迁