基于Hadoop平台的TFIDF算法并行化研究

基于Hadoop平台的TFIDF算法并行化研究

王静宇 赵伟燕

计算机工程与科学 2014年06期

基于Hadoop平台的TFIDF算法并行化研究

时间: 2024-10-24 20:34:22

基于Hadoop平台的TFIDF算法并行化研究的相关文章

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

Hadoop平台上煤矿企业储备定额算法并行化研究与应用

Hadoop平台上煤矿企业储备定额算法并行化研究与应用 内蒙古科技大学  张翔 本文提出基于Hadoop云计算平台的备件消耗量预测系统.该系统分为数据获取模块.数据存储模块.数据预处理模块和备件消耗量预测模块四部分.其中,数据获取模块利用某煤炭集团公司的ERP系统Web Service接口来获取用户数据;数据存储模块中将数据获取模块中获取的备件数据按设计的数据格式存入本地Oracle数据库中;数据预处理模块利用VS2010开发程序将数据库中备件数据按要求进行处理,得到我们需要的数据格式的数据,通

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

基于Hadoop的遥感数字图像处理方法研究

基于Hadoop的遥感数字图像处理方法研究 东北师范大学   周涛 本文基于Hadoop云计算系统,主要利用并行编程框架MapReduce实现遥感数字图像的增强处理以及对增强后图像进行聚类,并与PC串行处理进行比较研究.针对遥感数字图像的整体亮度偏低.目视效果较差的特点,传统的图像增强方法在遥感数字图像上的处理无法达到人眼舒适的目视判读的效果,以及影响后续处理的问题,本文在无损增强方法的基础上进行了改进,使得原始图像的有效图像区域的无效像素点能够参与增强,实验结果表明该方法达到了很好的目视效果.

基于Hadoop的K-Medoids聚类算法实现与优化

基于Hadoop的K-Medoids聚类算法实现与优化 华东师范大学 蒋耀斌 本文结合K-Medoids算法的特点与Hadoop平台的优势,借鉴Mahout开源项目中已经实现的并行K-Means聚类算法的实现方案,提出了一种基于MapReduce的并行聚类算法HK-Medoids,大幅提升传统聚类算法的运算速率.另外,为了进一步提高聚类效率,本文从完善MapReduce调度.采取抽样方法.预设聚类初值中心点和优化数据源等方面对HK-Medoids作了进一步的优化.为了验证HK-Medoids算法

基于Hadoop的分布式服务注册中心研究和实现

基于Hadoop的分布式服务注册中心研究和实现 上海交通大学  杨柳 在分析了Web服务注册中心和云计算平台的基础上,本文提出了一种建立在云上的分布式服务注册中心的应用模型,称为HDSR (Hadoop-based Distributed Service Registry),它采用了Hadoop云平台来实现.该模型既可以支持基于服务行为的服务发现工作,也可以支持基于服务质量的服务发现工作.本文重点研究了服务数据的分布式存储与并行查询在Hadoop平台上的实现.在HDSR中,Hadoop分布式文件

基于Hadoop的云移动信息服务模型研究

基于Hadoop的云移动信息服务模型研究 马林山,赵庆峰,肖新国 在分析开源平台Hadoop的相关技术的基础上,提出了基于该平台的移动信息服务模型,并详细介绍了模型的各个构建组成部分.系统的功能设计.经测试,效果良好.实用性较强. 关键词:云计算:Hadoop:HadoopDB:移动阅读:元数据:模型 基于Hadoop的云移动信息服务模型研究