高峡:数据仓库下数据库设计模式变迁

文章讲的是高峡:数据仓库下数据库设计模式变迁,2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。今天是12日下午的专场8:数据仓库设计和管理。对于听了三天大会的朋友来说,真是辛苦了,短短三天,脑子塞了满满的数据库、大数据、数据分析、数据库设计模式等知识,我在这里奉劝一下,走的时候留点神,避免情绪过于激动,动作过于猛烈,以防知识从脑子里掉出来,哈哈!

  ▲点击进入第五届中国数据库技术大会(DTCC 2014)报道专题

  笔者作为大会主办方的报道编辑,也总算是熬出来了。相比每个技术爱好者、技术大牛们的收获而言,小弟我收获了一份大会5年亲身经历的情感。大会结束、明年再来,且行且珍惜吧。

  言归正传,在今天下午的内容专场,高峡老师重点的内容大致包括:1.OLAP产生的背景 2.范式设计 3.反范式 4.OODB 模式 5.EAV Entity Attribute Value 6.PIVOTING 7.XML 8.No-Schema 9.Relational Database 的发展。

  我在这里作为偏离技术比较远的记者来说,只能走马观花的介绍啦,请各位看官指导,批评。不过需要补充的是,看不太懂,或者不尽如意的时候,您可以稍晚在官方下载PPT,那样的话会更全面。


▲高峡:重庆众意网科技有限公司CTO

  开场,高峡老师说:“做大数据出什么书好?出商业模式的书,比如《大数据在洗脚城的应用》,如果在大俗的情况下做到大雅,这样的话国家对于数据治理的程度该有多高?因此,技术人才要锤炼商业模式,单纯的写代码不太高明。除了技术商,还要有财商。还是多看看商业场景吧。”

  技术男要看清商业场景和商业价值

  手中只有锤子,看到的都是钉子,这是一种工匠精神。现在是大数据的环境,先看在关系型数据库里沉淀了什么东西。技术人要懂得挖掘技术背后的商业模式。本文主要介绍了其中的部分技术和商业模式,更多的请会后下载PPT。

  1、集合思维,沉淀的最深刻的思维。关系型数据库中引入了序列表,非常有价值。把一段字符串按照分隔符分开,非常简单,写一个逻辑就OK了,但是在数据中不要这么做,而是要引入序列表,有一个集合思维,也是关系型数据库屹立不倒的原因。程序员的思维是引入光标,而数据库的思维则是集合思维。

  2、范式设计,有几个范式规范了关系型数据中有价值的东西。比如微博中的数据库设计也是通过增加冗余实现。还要保证完整性。微博中最重要的动作是看用户的时间线,看一个帖子的时间线,这就是微博的商业场景,规范了整个微博动作的最重要的两个动作。这就涉及到了分区。对于时间线的把握非常好,越近的越有价值,这就是Twitter的成功之处。

  大家碰到商业场景时,要看清楚行为分析模式分为哪几类。

  3、KV存储,最典型的是WordPrees。使用WordPress可以搭建功能强大的网络信息发布平台,但更多的是应用于个性化的博客。针对博客的应用,WordPress能让您省却对后台技术的担心,集中精力做好网站的内容。对用户的需求进行描述,一张表在关系型数据库中做不出来,在大数据的数据库中可能做得出来。

  4. EAV(Entiry-Attribute-Value)

  案例:Magento

  Magento 是一款新的专业开源电子商务平台,Magento电子商务平台采用php进行开发,使用Zend Framwork框架。Magento设计得非常灵活,具有模块化架构体系和丰富的功能。易于与第三方应用系统无缝集成。在设计上,包含相当全面,以模块化架构体系,让应用组合变得相当灵活,功能也相当丰富。

  功能:1.强大的商品属性组合;2.购物车价格规则;3.灵活的模板系统;4.多网店系统

  ;5.完善的插件体系;6.安全加密;7.企业应用集成。

  架构

  5. FTS – Full Text Search

  索引都是建立在基础的架构,比如Google和雅虎等等。倒排文件索引:行式数据库中比较困难是因为倒排做得不好。

  案例:

  6、Pivoting 行列转换

  数据库论坛问得最多的问题、数据库行列本身的限制。解决Pivoting问题:在二维数据库里面解决Pivoting

  7. XML

  Impendence Mismatch 阻抗失效、Multiple Result Set 多结果集的串接。

  案例:RightNow SAAS CRM

  顶级SAAS CRM供应商,目前有十几万的客户,甲骨文15亿美元收购云客户服务提供商RightNow。

  应用场景:支持自定义客户属性、快速查询(属性的组合查询)

  8. 列式数据库

  Sybase IQ 排名列式数据库第一

  IQ通过列存储、革命性的位图索引方法以及智能的动态访问技术实现了快速的查询响应速度,比传统的数据库查询速度提高10-1000倍。

  减少磁盘I/O IQ通过独特的列存储,索引与压缩技术,大大减少了查询中的磁盘I/O次数,其杰出的磁盘I/O效果带来了更快速的查询反应,更高的吞吐量和更低的成本。最后被SAP以58亿美元收购。

  如何做到精准营销

  必须做客户分群:从动态的非结构化的数据形成结构数据,然后卖给客户,这才是商业模式。微博为什么不盈利?因为它缺乏结构化的人群标签数据,无法做精准营销。微软用20亿美金做市场调研,问用户希望下一版Office希望增加哪些功能。

  应用场景:需要300万行的客户数据、几千个客户属性、需要根据任何客户属性的组合进行查询、行式数据库的局限(索引的限制(256))。

  解决方案:从行式数据库转化为列式数据库、查询时间提高50倍、压缩率高达1:30。

  9、数据仓库

  定义:数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

  特征:面向主题、集成、时变、不可更新。

  案例:BOA 美洲银行的数据仓库

  美洲银行就是使用NCR Teradata建立数据仓库并获得成功应用的一个例子。该银行在几年的时间内曾先后兼并过十几家小银行,由于拥有的30多个OLTP业务系统太多而且分散,管理十分不容易,要找到准确的业务数据也很难。举例来说,它要准确地了解各个分行的客户资料就要花很多的时间,最后的结果还不一定完全准确。为此,美洲银行投资Teradata建立了一个中央的数据仓库,把各个分行系统中的数据都集中到中央库来,一些以前要几个星期才能得到答案的业务问题现在只需要几分钟甚至更少,效果非常明显。

作者:景保玉

来源:IT168

原文链接:高峡:数据仓库下数据库设计模式变迁

时间: 2024-11-03 19:33:03

高峡:数据仓库下数据库设计模式变迁的相关文章

互联网企业安全高级指南1.6 云环境下的安全变迁

1.6 云环境下的安全变迁 云计算的本质是改变企业需求方通过传统的渠道获取IT资源的形式.传统的方式是一个企业假如要构建信息化的能力,必须要采购硬件,采购软件,维护一个较大的IT团队,TCO很高.但是,到了云计算时代,这一切你都不需要,你只要轻点鼠标就可以获取大量的计算.存储和网络资源,并且不再需要专门的人员去IDC机房维护服务器,不需要大量的运维人员,甚至某些通用的应用开发都省了,你可以将手头的IT预算用于最需要的部分-完全聚焦于自己的业务,而不用费大量的精力维护基础设施,甚至资源的获取变得弹

使用JAVA实现高并发无锁数据库操作步骤分享_java

1. 并发中如何无锁.一个很简单的思路,把并发转化成为单线程.Java的Disruptor就是一个很好的例子.如果用java的concurrentCollection类去做,原理就是启动一个线程,跑一个Queue,并发的时候,任务压入Queue,线程轮训读取这个Queue,然后一个个顺序执行. 在这个设计模式下,任何并发都会变成了单线程操作,而且速度非常快.现在的node.js, 或者比较普通的ARPG服务端都是这个设计,"大循环"架构.这样,我们原来的系统就有了2个环境:并发环境 +

缓存在高并发场景下的常见问题

缓存一致性问题 当数据时效性要求很高时,需要保证缓存中的数据与数据库中的保持一致,而且需要保证缓存节点和副本中的数据也保持一致,不能出现差异现象.这就比较依赖缓存的过期和更新策略.一般会在数据发生更改的时,主动更新缓存中的数据或者移除对应的缓存.   缓存并发问题 缓存过期后将尝试从后端数据库获取数据,这是一个看似合理的流程.但是,在高并发场景下,有可能多个请求并发的去从数据库获取数据,对后端数据库造成极大的冲击,甚至导致 "雪崩"现象.此外,当某个缓存key在被更新时,同时也可能被大

高密度环境下行人检测和统计

好文要转! 实验程序视频 下载 1 问题描述   高密度环境下的行人统计一直没有得到很好的解决,主要原因是对高密度人群中的行人检测和跟踪是一个很难的问题,如下图所示环境,存在的困难包括: 检测方面: 由于人群整体处于运动状态,占据了背景的60%以上的面积,导致许多目标检测的方法,如基于背景差的运动目标检测.分割方法难以奏效.另外,由于人群存在大量遮挡,导致基于行人轮廓的检测方法,如HOG也难以奏效. 跟踪方面: 高密度环境中的多目标跟踪,由于存在大量的遮挡.合并.分离,实现准确的跟踪是一个富有挑

断网故障时Mtop触发tomcat高并发场景下的BUG排查和修复(已被apache采纳)

该文章来自阿里巴巴技术协会(ATA)精选集 目录 现象 NIO模式背景介绍 排查过程 结合业务场景解释问题产生的原因 进一步的发现 解决办法 向Apache社区的反馈 总结 现象 mtop的机器,环境为Ali-Tomcat 7.0.54.2,连接器采用的是NIO模式,在高流量(约1000 qps)的情况下,在Tomcat的启动后一段时间内,抛出ConcurrentModificationException,然后再过一段时间后,Tomcat无法再接受新的请求. 异常堆栈如下: Exception

inux y-关于Linux下数据库测试

问题描述 关于Linux下数据库测试 公司新买了Linux centos系统,以实现数据库的测试和管理,我在其上安装了MySQL软件.公司要求的是其他Java程序员通过连接我这台服务以获得数据,我修改了my.cnf配置文件并开启了3306端口,并且给与了客户机访问权限,但是客户机在使用jdbc连接时还是报错,我要怎么设置?公司还要求服务器和客户机之间实现局域网访问,需要应用到端口映射吗 解决方案 你的操作系统是Windows还是Linux,下面这步有没有做? 配置文件的修改 %mysql_HOM

高访问量情况下,在线人数的统计,比如腾讯 ?????????

问题描述 高访问量情况下,在线人数的统计,比如腾讯 ????????? 解决方案 java统计在线人数对于登录信息时使用session存储的,所以我这里是通过实现HttpSessionAttributeListener这个接口完成的. 1.实现接口类,在web.xml文件中配置监听类,从而可以使该类完成其工作. public class SessionListener implements HttpSessionAttributeListener { public void attributeA

评论:高清监控下 站街不如巡街

随着社会经济及安防行业的发展,视频监控摄像头在城市中成为随处可见的设备,并已成为交通执法与治安管控的手段.虽然有了这些摄像头的"盯防",但我们仍可在道路上看到交警"站街"执法的情况,而交警在执勤中有时候非常危险,有时候要冒着风雪也十分劳累.为此有人不禁要问:"有了高清监控摄像头,还有必要让交警'站街'吗?" 高清监控下 站街不如巡街 12月1日早上,一位朋友给笔者留言:"张兄,写篇评论,别让交警站十字路口中间执勤了.有信号灯有监控,没必

LG高端战略下倾?

本报记者 柳燕 北京报道LG高端战略下倾? 一向以"高端差异化"著称的消费电子商LG面向大众市场抛出了橄榄枝. 8月22日,在"LG洗衣机2007-2008年新品介绍会"上,LG北京分公司长郑宇城向<华夏时报>表示:LG欲 发力冰洗中的波轮市场. 在力推蒸汽洗衣机的同时,LG发力波轮洗衣机似乎与其战略格格不入.时隔一年后,其"高端差异化"战略将要改变或调整吗? 记者注意到,从2006年开始,LG即展开了其"高端差异化战略&q