《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景

1.4 Greenplum特性及应用场景

1.4.1 Greenplum特性

(1)支持海量数据存储和处理
当今是个数据迅速增长的时代,数据量从过去的MB到GB,再到TB增长到现在的PB级规模,传统的OLTP数据库在TB级别以上的数据管理中已经捉襟见肘。Greenplum使用MPP架构,同时使用多台机器并行计算,极大地提高了对海量数据的处理能力。采取MPP架构的数据库系统才能对海量数据进行管理。
(2)高性价比
Greenplum数据库可以搭建在业界各种开放式硬件平台上,在硬件选型上有很强的自由性。
相比其他封闭式数据仓库专用系统及Hadoop分析平台,Greenplum在每TB数据量上的投资是前者的1/5甚至更低。
Greenplum licence相比Oracle RAC、Teradata等,价格低廉。
Greenplum易于维护,可以节省大量的维护成本。
(3)支持Just In Time BI
Greenplum通过准实时、实时的数据加载方式,实现数据仓库的实时更新,进而实现动态数据仓库(ADW)。基于动态数据仓库,业务用户能对当前业务数据进行BI实时分析(Just In Time BI),能够让企业敏锐感知市场的变化,加快决策支持反应速度。
(4)系统易用性
Greenplum是基于PostgreSQL开发的,语法与PostgreSQL几乎一样,PostgreSQL的工具基本上都能够在Greenplum中使用,比如pgadmin等。Greenplum使用通用的PostgreSQL连接包即可与数据库连接,支持绝大部分开发语言。Greenplum的易用性具体表现如下。
支持主流的SQL语法,使用起来十分方便,学习成本低。
扩展性好,支持多语言的自定义函数和自定义类型等。
提供了大量的维护工具,使用维护起来很方便。
在Internet上有着丰富的PostgreSQL资源供用户参考。
(5)支持线性扩展
Greenplum采用MPP并行处理架构。在MPP架构中增加节点就可以线性提高系统的存储容量和处理能力。Greenplum在扩展节点时操作简单,在很短时间内就能完成数据的重新分布。Greenplum线性扩展支持为数据分析系统将来的拓展提供了技术上的保障,使用户可根据实施需要进行容量和性能的扩展。
(6)较好的并发支持及高可用性支持
Greenplum是高可用的系统,在已有案例中最多使用了96台机器的集群MPP环境。除了硬件级的Raid技术外,Greenplum还提供数据库层Mirror机制保护,也就是将每个节点的数据在另外的节点中同步镜像,单个节点的错误不影响整个系统的使用。对于主节点,Greenplum提供Master/Stand by机制进行主节点容错,当主节点发生错误时,可以切换到Stand by节点继续服务。
(7)支持MapReduce
MapReduce已经被谷歌和雅虎等互联网领先企业证明是一种大规模数据分析技术,Greenplum将这种能力提供给企业。
(8)数据库内部压缩
面对海量数据,压缩可以节省很大的空间,而且在对大数据的分析时,压缩也可能减少对磁盘的访问。Greenplum支持对数据库表进行压缩处理,从而提升数据库的性能。

1.4.2 Greenplum应用场景

Greenplum数据引擎是为新一代数据仓库和大规模分析处理而建立的软件解决方案,其最大的特点是不需要高端的硬件支持仍然可以支撑大规模的高性能数据仓库和商业智能查询。在数据仓库、商业智能的应用上,尤其在海量数据的处理方面Greenplum表现出极其优异的性能。
传统数据库侧重交易处理,关注的是多用户的同时的双向操作,在保障即时性的要求下,系统通过内存来处理数据的分配、读写等操作,存在IO瓶颈。而分析型数据库是以实时多维分析技术作为基础,对数据进行多角度的模拟和归纳,从而得出数据中所包含的信息和知识。Greenplum虽然是关系型数据库产品,但是它具有查询速度快、数据装载速度快、批量DML处理快的主要特点,而且性能可以随着硬件的添加呈线性增加,拥有非常良好的可扩展性。因此,Greenplum主要适用于面向分析的应用,比如构建企业级ODS/EDW、数据集市等。
在国内,笔者所在公司—阿里巴巴(中国)网络技术有限公司,从2008年开始引入Greenplum,将原有的Oracle RAC迁移到Greenplum上,作为数据仓库的计算中心,其中一个应用就是通过分析用户的网络点击日志进行产品的关联分析。支付宝在2008年也引入了Greenplum数据库作为数据中心。国内还有很多银行也引入了Greenplum作为基础的数据平台,如北京银行、深发展银行、中信银行信用卡中心等。在TB级的数据仓库的OLAP应用中Greenplum在易用性和性能方面有着很大的优势。

时间: 2024-08-04 09:15:46

《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景的相关文章

《Greenplum企业应用实战》一导读

前 言 为什么写作本书 阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司.从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点. Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相比Hadoop要快好几倍. Greenplum是基于PostgreSQL的一个完善的数据库,在功能和语法上都要比Hadoop上的SQL引擎Hive好用很多,对于普通用户来说更加容易上手. Greenpl

《Greenplum企业应用实战》一第1章 Greenplum简介1.1 Greenplum的起源和发展历程

第1章 Greenplum简介 本章先介绍Greenplum的产生背景.特性及应用场景.与PostgreSQL关系,以及发展历程. 1.1 Greenplum的起源和发展历程 短短十多年,互联网在中国经历了从门户网站.搜索.即时通信.游戏娱乐.垂直细分--到电子商务.Web 2.0,再到社会化网络.移动互联网的一系列进化和变革.无论是互联网还是移动互联网,都是由海量的数据构成.对海量数据分析的需求开始突破传统边界,不再局限于电信.移动.金融.保险.制造等传统企业,涌现出大批将海量.庞杂的数据转化

《Greenplum企业应用实战》一2.3 畅游Greenplum

2.3 畅游Greenplum 本节只介绍一些常用的命令,重点是Greenplum特有的一些命令,而对于一般数据库都具备的特性及SQL标准语法,本节提到的比较少,因此要求读者在阅读本节具备一定的SQL基础. 2.3.1 如何访问Greenplum psql psql是Greenplum/PostgreSQL默认的客户端,前面初始化数据库的时候已经使用过了,下面介绍一些详细的用法. ```javascript [gpadmin@dw-greenplum-1 ~]$ psql --help This

《Greenplum企业应用实战》一2.2 安装Greenplum的常见问题

2.2 安装Greenplum的常见问题 安装Greenplum最常见的错误就是环境变量设置错误,网卡配置错误,或者是每个Segment的通道或网络没有打通. 如果子节点的操作系统环境不一样,也可能会导致各种各样的错误.所以在搭建环境的时候,要求每一台机器的配置基本一样,方便以后管理与维护,避免一些奇怪的问题.下面将介绍几个常见的报错及处理方法. 2.2.1 /etc/hosts配置错误 现在来看一个奇怪的报错SQL,查询一张普通表时报如下错误,但是查询数据字典又不报错: testDB=# se

《Greenplum企业应用实战》一1.5 小结

1.5 小结 本章非常简短地介绍了Greenplum产生的背景,并分别对比OLTP与OLAP.PostgreSQL和Greenplum,另外简要介绍了Greenplum的特性.应用场景及发展历程,相信通过这一章能让读者在总体上对Greenplum有所认识.

《Greenplum企业应用实战》一第2章 Greenplum快速入门2.1 软件安装及数据库初始化

第2章 Greenplum快速入门 本章将介绍如何快速安装部署Greenplum,以及Greenplum的一些常用命令及工具."工欲善其事,必先利其器",因此我们先从如何安装Greenplum开始介绍,然后介绍一些简单的工具,以及Greenplum的语法及特性.为了让读者更加快速地入门,避免涉及太多底层的东西.本章不会涉及硬件选型.操作系统参数讲解.机器性能测试等高级内容,这些会在"第8章Greenplum线上环境部署"中介绍. 2.1 软件安装及数据库初始化 下面

《Greenplum企业应用实战》一第3章 Greenplum实战3.1 历史拉链表

第3章 Greenplum实战 从本章开始我们结合实际需求,阐述一下日常项目开发中如何结合Greenplum的特性进行高效的开发,展现出Greenplum在海量数据分析中的优势. 本章将介绍两个完整的例子:数据仓库拉链记历史和网页浏览日志分析.在这两个例子中,会结合Greenplum的一些特性加以描述,之后会介绍使用Greenplum中要注意的一些特性,以及这些特性对性能的影响. 3.1 历史拉链表 数据仓库是一个面向主题的.集成的.相对稳定的.反映历史变化的数据集合,用于支持管理决策.由于需要

《Greenplum企业应用实战》一3.2 日志分析

3.2 日志分析 日志分析是网站分析的基础,通过对网站浏览的日志进行分析,可以为网站优化提供数据支持,了解用户群以及用户浏览特性,对改进网站体验,提升流量有非常重要的意义.下面将通过Greenplum实现一个简单的网站浏览日志的分析. 3.2.1 应用场景描述 分析全网站每分钟的PV.UV,并导出到Excel中,画出折线图.解析URL,获取URL中的参数列表.通过URL取得member_id,然后统计当天浏览次数的用户分布,如浏览次数在1-5.6-10.11-50.51-100以及100次以上的

《Greenplum企业应用实战》一1.3 PostgreSQL与Greenplum的关系

1.3 PostgreSQL与Greenplum的关系 1.3.1 PostgreSQL PostgreSQL是一种非常先进的对象–关系型数据库管理系统(ORDBMS),是目前功能最强大,特性最丰富和技术最先进的自由软件数据库系统之一,其某些特性甚至连商业数据库都不具备.这个起源于伯克利(BSD)的数据库研究计划目前已经衍生成一项国际开发项目,并且有非常广泛的用户. PostgreSQL的特点可以说是数不胜数,称其为最先进的开源软件数据库当之无愧,支持绝大部分的主流数据库特性,主要体现在如下几方