在hadoop下运用Mapreduce构建文本索引

在hadoop下运用Mapreduce构建文本索引

樊超

Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。

在hadoop下运用Mapreduce构建文本索引

时间: 2024-07-30 18:29:01

在hadoop下运用Mapreduce构建文本索引的相关文章

hadoop中使用mapreduce对文本内容进行分区存储

问题描述 使用partion对一个文本中不同长度的字符串分区存储输入文本如下:Kaka128hua026chao1tao122mao02922想要将不同长度的字符串分在三个文件中存储,代码如下:publicclassTestPartionar{//MapMethodpublicstaticclassMapextendsMapper<LongWritable,Text,Text,Text>{//realizemapmethodprotectedvoidmap(LongWritablekey,Te

Hadoop下并行BP神经网络骆马湖水质分类

Hadoop下并行BP神经网络骆马湖水质分类 鞠训光 邵晓根 鲍蓉 徐德兰 王海鹰 研究借助云的计算向数据迁移机制及MapReduce并行处理海量数据的优势,解决BP神经网络在处理大规模样本数据时计算量大.网络训练时间长的瓶颈问题.构建了影响骆马湖水质的多污染因素评价网络模型,在Hadoop下应用并行BP网络算法,实现了对骆马湖水质分类挖掘,挖掘分析结果对骆马湖水质优化及生态修复具有决策支持性意义. Hadoop下并行BP神经网络骆马湖水质分类

从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

 文章转载自: http://blog.csdn.net/v_july_v/article/details/670407 从hadoop框架与MapReduce模式中谈海量数据处理 前言     几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理.     由此,最近凡是空闲时

基于Hadoop系统的MapReduce数据流优化

1 Hadoop管道改进思想 在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到 JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其输出.这样的方式只能等该Map任务完成后才能开始执行 Reduce任务,并且Map任务和Reduce任务的执行是分离的. 我们的改进思想是使Map任务和Reduce任务能够以管道的方式执行,即Map任务开始产生输出后直接发送给相应的Reduce任务,

在Eclipse下利用gradle构建系统

简介:构建系统时候常常要用到 Ant, Maven 等工具,对于初学者来说,它们还是过于复杂,上手还 是需要时间的.本文将向读者介绍一种全新的构建项目的方式 gradle,它简单.上手快,能大大节省项 目的时间和成本. 在 eclipse 下利用 gradle 构建系统 基本开发环境 操作系统:本教程使用的为 Windows Vista Enterprise, 如果您的系统是 Linux 的,请选择下载对 应版本的其他工具,包括开发工具.Java EE 服务器.Apache Ant.SoapUI

图片-onClick()单机事件(下拉框与文本框内容)

问题描述 onClick()单机事件(下拉框与文本框内容) 解决方案 你的具体问题是什么呢. 你在onclick中调用search就可以了. 解决方案二: 问题呢???具体的问题都不说明白 - - 解决方案三: 我也不明白你想问什么 解决方案四: 你想问的到底是什么? 解决方案五: onchange事件,级联菜单吗

列表框文字显示不下,可不可以像文本框那样自动换行?

问题描述 列表框文字显示不下,可不可以像文本框那样自动换行? 列表框文字显示不下,可不可以像文本框那样自动换行?怎么给列表框加上wordwarp属性? 解决方案 你是不是设置了overflow:hidden了,要不碰到边界会自动换行的

施奈德金东:云计算下数据中心构建策略

本文讲的是施奈德金东:云计算下数据中心构建策略,数据中心对于企业来说,正如我们笔记本与个人,它帮助我们提高工作的效率.2012年,3月22日,2012年中国云计算峰会在北京召开,这次会议的主题是以云计算加速.业务与商业变革.在会上施奈德电气IT事业部数据中心解决方案拓展经理金东先生描述了<云计算下的数据中心构建策略>. 金东 金东先生表示银行.保险这一类的企业,数据中心对于银行.保险这一类企业来说,是构建核心竞争力的核心资产.对于电信.托管和云计算的提供商来说,数据中心就是他们的生命.无数的企

hadoop下的存储在hdfs中的视频文件怎么播放?

问题描述 hadoop下的存储在hdfs中的视频文件怎么播放? hadoop下的存储在hdfs中的视频文件怎么播放?可以直接拿到视频文件的http路径吗,我现在想实现的是像百度云这样的可以在线播放,但是不知道怎么得到文件的路径,而hdfs提供的API只有上传下载文件这些,对于这样的问题要怎么解决呢?? 解决方案 你需要用HDFS API来获取 package org.myorg.hdfsdemo; import java.io.BufferedReader; import java.io.IOE