使Couchbase Server能够与Hadoop连接器通信

Hadoop 非常适合处理大量数据并将该信息解析为您可查询的较小的信息集。但是,通过与 Couchbase Server 集成,您可以对信息执行实时查询和报告,同时继续使用 Hadoop 处理大型数据集和数据集的繁重处理工作。

Hadoop 和">数据处理

Hadoop 将许多重要特性结合在一起,这使 Hadoop 对于将大量数据分解为更小、实用的数据块非常有用。

Hadoop 的主要组件是 HDFS 文件系统,它支持将信息分布到整个集群中。对于使用这种分布格式存储的信息,可以通过一个名为 MapReduce 的系统在每个集群节点上进行单独处理。MapReduce 进程将存储在 HDFS 文件系统中的信息转换为更小的、经过处理的、更容易管理的数据块。

因为 Hadoop 可在多个节点上运行,所以可以使用它来处理大量输入数据,并将这些数据简化为更实用的信息块。此过程可使用一个简单的 MapReduce 系统来处理。

MapReduce 转换传入信息(不一定为结构化格式),将该信息转换为一种可更轻松地使用、查询和处理的结构。

例如,一种典型的用途是处理来自数百个不同应用程序的日志信息,以便可以识别特定的问题、计数或其他事件。通过使用 MapReduce 格式,您可以开始度量并查找趋势,将平常非常多的信息转换为更小的数据块。举例而言,在查看某个 Web 服务器的日志时,您可能希望查看特定页面上的特定范围中发生的错误。您可以编写一个 MapReduce 函数来识别特定页面上的特定错误,并在输出中生成该信息。使用此方法,您可从日志文件中精减多行信息,得到一个仅包含错误信息的小得多的记录集合。

理解 MapReduce

MapReduce 的工作方式分两个阶段。映射 (map) 过程获取传入信息,并将这些信息映射到某种标准化的格式。对于某些信息类型,此映射可以是直接和显式的。例如,如果要处理 Web 日志等输入数据,那么仅从 Web 日志的文本中提取一列数据即可。对于其他数据,映射可能更复杂。在处理文本信息时,比如研究论文,您可能需要提取短语或更复杂的数据块。

精减 (reduce) 阶段用于收集和汇总数据。精减实际上能够以多种不同方式发生,但典型的过程是处理一个基本计数、总和或其他基于来自映射阶段的个别数据的统计数据。

想象一个简单的示例,比如 Hadoop 中用作示例 MapReduce 的字数,映射阶段将对原始文本进行分解,以识别各个单词,并为每个单词生成一个输出数据块。reduce 函数获取这些映射的信息块,对它们进行精减,以便在所看到的每个惟一单词上进行递增。给定一个包含 100 个单词的文本文件,映射过程将生成 100 个数据块,但精减阶段可对此进行汇总,提供惟一单词的数量(比如 56 个)和每个单词出现的次数。

借助 Web 日志,映射将获取输入数据,为日志文件中的每个错误创建一条记录,然后为每个错误生成一个数据块,其中包含日期、时间和导致该问题的页面。

在 Hadoop 内,MapReduce 阶段会出现在存储各个源信息块的各个节点上。这使 Hadoop 能够处理以下大型信息集:通过允许多个节点同时处理数据。例如,对于 100 个节点,可以同时处理 100 个日志文件,比通过单个节点快得多地简化许多 GB(或 TB)的信息。

Hadoop 信息

核心 Hadoop 产品的一个主要限制是,无法在数据库中存储和查询信息。数据添加到 HDFS 系统中,但您无法要求 Hadoop 返回与某个特定数据集匹配的所有数据的列表。主要原因是 Hadoop 不会存储、结构化或理解存储在 HDFS 中的数据的结构。这正是 MapReduce 系统需要将信息分析并处理为更加结构化的格式的原因。

但是,我们可以将 Hadoop 的处理能力与更加传统的数据库相结合,使我们可以查询 Hadoop 通过自己的 MapReduce 系统生成的数据。可能的解决方案有许多,其中包括一些传统 SQL 数据库,但我们可以通过使用 Couchbase Server 来保持 MapReduce 风格(它对大型数据集非常有效)。

系统之间的数据共享的基本结构如 图 1 所示。

图 1. 系统之间的数据共享的基本结构

时间: 2024-09-20 10:37:37

使Couchbase Server能够与Hadoop连接器通信的相关文章

初体验SQL Server 2012的Hadoop连接器

本文讲的是初体验SQL Server 2012的Hadoop连接器,电影<天下无贼>中一句经典的"21世纪什么最贵?人才!",体现了以人为本的价值观.而实际上,深处大数据时代的我们,是不是也应该幽默一回:"21世纪什么最值钱?数据!".对于企业而言,除了人才,数据也是最重要资产之一. "大"数据的价值 面对如此庞大的数据,企业该如何挖掘其中的商机呢?这里给出一些应用场景,简单梳理一下大数据的价值所在: ·在以用户为中心的SNS网络中,

结合使用Hadoop与Couchbase Server

文章讲的是结合使用Hadoop与Couchbase Server,Hadoop 将许多重要特性结合在一起,这使 Hadoop 对于将大量数据分解为更小.实用的数据块非常有用. Hadoop 的主要组件是 HDFS 文件系统,它支持将信息分布到整个集群中.对于使用这种分布格式存储的信息,可以通过一个名为 MapReduce 的系统在每个集群节点上进行单独处理.MapReduce 进程将存储在 HDFS 文件系统中的信息转换为更小的.经过处理的.更容易管理的数据块. 因为 Hadoop 可在多个节点

Linux CentOS上安装Couchbase Server的过程

Couchbase 是一个开源的.分布式的.面向文档(document-oriented)的 NoSQL 数据库,并且内置了 Memcached 服务.本文分享的是自己在 Linux 上成功安装 Couchbase Server 的实际操作步骤. Linux 发行版是 CentOS. 1. 下载 Couchbase 安装包 用 wget 命令进行下载: wget http://packages.couchbase.com/releases/2.0.0/couchbase-server-enter

10gen发布MongoDB与Hadoop连接器

10gen近日宣布他们已经推出MongoDB与Hadoop连接器(1.0版).这个版本将提供一年的维护.10gen的工作也为用户提供了在MongoDB部署与Hadoop集群数据处理的一体化工具.此连接器支持Hadoop 0.20.x以上的版本. 连接器的核心功能主要是提供将MongoDB所存储的数据读入Hadoop MapReduce,同时将MapReduce处理过的数据返还到MongoDB.用户还可以选择是批量写入数据或是单独用在某个用例上.10gen的目标就是在Hadoop生态圈中建立对用户

Hadoop RPC通信Client客户端的流程分析

Hadoop的RPC的通信与其他系统的RPC通信不太一样,作者针对Hadoop的使用特点,专门的设计了一套RPC框架,这套框架个人感觉还是有点小复杂的.所以我打算分成Client客户端和Server服务端2个模块做分析.如果你对RPC的整套流程已经非常了解的前提下,对于Hadoop的RPC,你也一定可以非常迅速的了解的.OK,下面切入正题. Hadoop的RPC的相关代码都在org.apache.hadoop.ipc的包下,首先RPC的通信必须遵守许多的协议,其中最最基本的协议即使如下: /**

如何使SQL Server数据库支持XML

如果你在IT业工作,那么你很可能听说过XML:但如果你的工作主要与SQL Server有关,那么你可能并没有直接运用过XML.XML已经是Web编程环境中的普遍的数据格式了,而且它也是.NET Framework中主要的底层技术之一.SQL Server以两种方式来支持XML:通过SQL Server本身的功能,以及通过发布称为SQLXML的额外的功能.SQLXML扩展了SQL Server,并提供了XML兼容性. SQL Server支持XML就意味着,我们可以更有效地更新和读取数据了:我们不

如何优化Windows OS使SQL Server性能最优化

1.问题提出   这些天菜鸟又遇到麻烦事儿了.Server Team交给菜鸟的这批服务器跑起SQL Server来老是不顺畅.菜鸟情不至尽的想起了老鸟,于是,敲开了老鸟办公室的门:   "鸟哥,到底我们要如何定制化或者说如何优化我们的Windows Server OS来使得我们的SQL Server达到最大程度的性能优化呢?".老鸟还没有反应过来,菜鸟劈头盖脸的问道.   老鸟顿了两秒,自信的回答道:"菜鸟,有进步啊,开始学会思考问题了.我们可以按照如下方法来优化我们的操作系

配置使web server即能运行asp又能运行PHP(不装Apache)

支持ASP不用多余的设置,只要按正确安装了IIS4或IIS5就可以了.安装PHP可以选择CGI或ISAPI方式,具体安装可以参照下面说明(摘自PHP安装包内文件install.txt)Windows NT/2000 and IIS 4 or newer and PWS 4 on NT Workstation or W2K non server editions    To install PHP on an NT/2000 Server running IIS 4 or newer,    fo

使用大数据技术和Hadoop的解决方案

但是,您如何确定哪些数据是重要数据,如何确定该信息有多大比例是有效的.值得包含在报告中或有助于检测警报条件?本文将介绍为 大量机器数据集的使用提供支持的一些挑战,以及使用http://www.aliyun.com/zixun/aggregation/13568.html">大数据技术和 Hadoop 的解决方案.在探索数据存储和供给的基本机制之前,需要考虑您要存储何种信息,如何存储它,以及打算存储多长时间. Hadoop 的一个较大.但并不总是被提出来的问题是,它提供了一个只能附加的数据存