文档式数据库在Hadoop集群中的应用

  2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

  在SQL&NoSQL专场,来自巨彬软件的CTO王涛做了《文档式数据库在Hadoop集群中的应用》演讲,从大数据的回顾、文档式数据库特性、数据库在Hadoop中的定位以及用户案例四个方面详细介绍了NoSQL在大数据时代的作用。

  王涛介绍到,谈到大数据我们首先想到的就是3V(Volume、Variety、Velocity),Volume代表海量数据规模,据统计已有50%以上的组织拥有和正在处理超过10TB的数据,其中超过10%的组织已经超过1PB的数据,这也是大数据面临的第一个挑战;Variety代表高时效性,有30%的组织每天需要处理超过100G的数据,如何从海量的数据中实时得到我们想要的数据这是大数据所面临的第二个挑战;Velocity是多样化,大数据里我们需要处理的数据更加多样化,比如图形、视频、通话记录而这些数据可能都需要被处理和分析,如何处理这些多样化的数据是我们在大数据里面临的第三个挑战。

  想要真正的解决大数据问题,可以用Hadoop+NoSQL组合来使用。如下图,Hadoop很好的解决了海量数据与多样化数据的问题,NoSQL解决了海量与高时效性数据。王涛谈到,Hadoop与NoSQL互为补充,而非取代。

                       ▲Hadoop与NoSQL—解决BigData的核武器

  谈到普通关系型数据库在大数据环境下面临的困境,王涛介绍到,一是数据模型僵化,无法处理海量的数据,造成了性能的上线;二是强一致性,关系型数据库中日志、锁构成了性能瓶颈;而文档式数据库却可以很好的解决这些问题。王涛继续谈到,文档式数据库数据模型灵活,Schemaless带来开发的敏捷和可扩展性的提升;最终一致性也带来了性能大幅度的提升;同时,NoSQL也体现在低成本方面,可以使用PC服务器进行水平扩张。

  接着,王涛介绍了文档型数据库的几大特性,首先是在线扩容,只要把新的节点增加到集群里,然后划分数据分区,系统就可以自动的把数据从其他的机器搬到新的机器上。其次是异构数据复制机制,可以保证数据的稳定性、不丢失。三是多索引的支持,和很多KV或者宽表数据库比起来,文档型数据库一般对一个集合能够在不同字段上创建多个索引。

  谈及Hadoop与NoSQL的结合点,王涛谈到了NoSQL数据库在Hadoop中的定位(如下图),把NoSQL放到了hadoop的下面,与HDFS处于同一层,而做为一个数据源。这样做的好处就是,我们每次访问数据的时候,从需要从上方导入HDFS再使用,而是可以直接的访问原生的数据库接口访问到数据。

                        ▲NoSQL数据库在Hadoop中的定位

                                   ▲从Hadoop导入数据

  最后,王涛分享了Hadoop与NoSQL的成功应用案例:

  首先,客户挑战面临每天需要入库归档超过100G数据,需要能够并发、实时、由多个维度访问超过2年的历史数据,当前的Oracle数据库无法满足实时查询的需求。

  解决方式:使用MapReduce与Hive作为ETL处理的补充进行数据清洗和转换,使用Hive将最终结果进行加载入SequoiaDB,小规模x86集群平台降低TCO,使用SequoiaDB,在常用查询字段上建立多个索引保证查询性能。

  最终结果:可以在线针对2年的历史数据进行多条件检索,高数据压缩比节省数据存储空间,利于细分客户群,发现高价值用户,降低客户流失率,帮助自营产品、套餐等设计与创新,提升客户体验进行策略管控。

时间: 2024-09-24 11:46:14

文档式数据库在Hadoop集群中的应用的相关文章

搭建hadoop集群中遇到的各种问题,整理如下:

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     和同伴一起搭建hadoop集群中遇到的各种问题,整理如下: 前言 在寒假前的一段时间,开始调研Hadoop2.2.0搭建过程,当时苦于没有机器,只是在3台笔记本上,简单跑通一些数据.一转眼一两个月过去了,有些东 西对已经忘了.现在实验室申请下来了,分了10台机器(4G+500G),这足够我们玩的了.开始搭建Hadoop2.2.0分布式集群,也趁着这个机会 把

如何删除恢复Hadoop集群中的DataNode

有时候因为做临时调整可能需要删除hadoop集群中的DataNode,具体方法如下: 首先在/etc/hadoop/conf/dfs.exclude 中添加要删除节点的机器名 在控制台页面中看见显示了一个Dead  Datanodes 使用命令刷新节点信息: [hdfs@hmc ~]$ hadoop dfsadmin -refreshNodes 查看hdfs的使用报告:[hdfs@hmc ~]$ hadoop dfsadmin -report  红色字体状态表示节点退出 Name: 192.16

《Hadoop集群与安全》一2.1 在Hadoop集群中配置操作系统

2.1 在Hadoop集群中配置操作系统 正如之前所提到的,Hadoop能够运行在几乎所有Linux版本的系统上.本章随后的讲解会将重点放在CentOS 6.x上,CentOS和Red Hat是Hadoop相关产品安装最为普及的平台.要掌握这些步骤并不难,对于Debian系统所有与配置Hadoop组件的步骤都是一致的,因此读者可以根据自身需求替换对应的包管理器. 2.1.1 选择和设置文件系统 现代Linux系统支持多种不同的文件系统:如EXT3.EXT4.XFS.BTRFS,等等.针对特定的工

Hadoop集群中hosts文件配置问题

最近一直在做hadoop的应用,但是无奈于并行加速比一直不理想,两台机器运行的时间和一台机器运行的时间差不多,老师还一直要这个数据,并行计算比至少应该为1.5,这样的并行程序才有意义. 加了个qq群,发现了问题所在,再说我解决方法之前,先说一下我hadoop集群的配置: 2台笔记本,其中1台为lenovo z460,CPU为Core i3,主机名为:liujiacai-Ideapad-Z460:另一台是Acer  Aspire 4743 CPU为奔腾P6200,主机名为:liujiacai-As

Hadoop集群中利用HBase更加高效地进行查询和优化海量数据

本文将帮助读者在大数据云计算 Hadoop 集群应用中利用 HBase 更加高效.直观.便捷地进行存储,查询和优化海量数据. 2006 年 11 月,Google 发表了一篇名为< BigTable >论文 , 2007 年 2 月,Hadoop 的开发人员对其进行实现并命名为 HBase. HBase 是基于 Hadoop 之上的一种新型的基于列存储的开源数据存储架构,用于解决大数据问题,是 Hadoop 的分布式数据库. HBase 现在已经比较成熟,最新的稳定版本是 0.94.x.HBa

Hadoop集群中基于能量有效的作业提交

Energy Efficient and Reliable Job Submission in Hadoop Clusters Sudha Sadasivam  S Sangeetha  Radhakrishnan This paper addresses the problem of block allocation in distributed file system to improve reliability and energy efficiency. temp_12090110392

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

《Hadoop集群与安全》一1.1 选择Hadoop集群硬件

1.1 选择Hadoop集群硬件 Hadoop是可扩展的集群,它采用非共享系统处理大规模并行数据.Hadoop的总体概念是单个节点对于整个集群的稳定性和性能来说并不重要.根据这种设计理念,我们可以在单个节点上选择能够高效处理少量(相对于整体的数据量大小)数据的硬件并且在硬件层面也无需过分追求稳定性和冗余性.读者可能已经知道,Hadoop集群由多种类型的服务器所组成.它们中有主节点,比如NameNode.备份NameNode以及JobTracker,还有称为DataNode的工作节点.除了核心的H

《Hadoop集群与安全》一2.2 设置NameNode

2.2 设置NameNode 在本节中,我们将一步一步对NameNode服务进行安装以及基本配置,其中包括高可用方案的构建.网络上许多指导和教程将NameNode高可用方案作为一项高级内容,而我们在最初就将重点放在NameNode高可用方案的设置上.原因是在Hadoop构建中NameNode扮演着重要的角色.从根本上说,NameNode是Hadoop集群中的一块短板.如果没有该项服务,用户就无法访问Hadoop分布式文件系统(HDFS). 我们有多种方法对NameNode高可用方案进行设置.在C