基于MapReduce编程模型的TFIDF算法研究

基于MapReduce编程模型的TFIDF算法研究

赵伟燕  王静宇

随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要。现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比。实验证明,使用TFIDF文本分类算法可实现对海量数据的高速有效分类。

基于MapReduce编程模型的TFIDF算法研究

时间: 2024-09-11 07:28:19

基于MapReduce编程模型的TFIDF算法研究的相关文章

基于MapReduce的分布式极图构造算法研究

基于MapReduce的分布式极图构造算法研究 北京交通大学 赵男 随着云计算技术的快速发展,很多与大规模数据处理相关的研究与应用都逐渐迁移到云计算环境中,如数据挖掘.网络搜索.图像处理以及生物信息分析等.对大规模的图数据处理技术也是当前高性能计算领域的研究热点.而在图论研究中,极图构造算法作为极图理论的一个重要研究内容,越来越受到人们的关注. 极图是指满足一定约定条件且边数最多的图,其构造算法产生大规模的临界图集合作为中间数据.传统的串行极图构造算法会因为需要处理的临界图数量的大幅增加而变得效

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

基于MapReduce计算模型的气象资料处理调优试验

基于MapReduce计算模型的气象资料处理调优试验 杨润芝 沈文海 肖卫青 胡开喜 杨昕 王颖 田伟 云计算技术使用分布式的计算技术实现了并行计算的计算能力和计算效率,解决了单机服务器计算能力低的问题.基于长序列历史资料所计算得出的气候标准值对于气象领域实时业务.准实时业务及科学研究中均具有重要的意义.由于长序列历史资料数据量大.运算逻辑较复杂,在传统单节点计算平台上进行整编计算耗时非常长.该文基于Hadoop分布式计算框架搭建了集群模式的云计算平台,以长序列历史资料作为源数据,基于MapRe

MapReduce 编程模型概述

MapReduce 编程模型给出了其分布式编程方法,共分 5 个步骤: 1) 迭代(iteration).遍历输入数据, 并将之解析成 key/value 对. 2) 将输入 key/value 对映射(map) 成另外一些 key/value 对. 3) 依据 key 对中间数据进行分组(grouping). 4) 以组为单位对数据进行归约(reduce). 5) 迭代. 将最终产生的 key/value 对保存到输出文件中. MapReduce 将计算过程分解成以上 5 个步骤带来的最大好处

基于云计算的受限玻尔兹曼机推荐算法研究

基于云计算的受限玻尔兹曼机推荐算法研究 郑志蕴  李步源  李伦  李钝 数据的指数级增长及算法本身的复杂性使受限玻尔兹曼机面临着计算效率的问题.在详细分析受限玻尔兹曼机的基础上,将受限玻尔兹曼机与Hadoop平台的并行计算架构相结合,提出基于云平台的受限玻尔兹曼机推荐算法.该算法通过复制机制解决数据相关性问题,并将传统的受限玻尔兹曼机过程分解为若干个Hadoop任务的循环,实现并行计算.实验结果表明,与在传统平台上的实现相比,基于Hadoop并行架构的受限玻尔兹曼机推荐算法在大体量数据集的条件

MapReduce编程模式原理及其算法设计

MapReduce是一种编程模式,在很大程度上借鉴了函数式语言.它主要的思想是分而治之(divide and conquer).将一个大的问题切分成很多小的问题,然后在集群中的各个节点上执行,这既是Map过程.在Map过程结束之后,会有一个Ruduce的过程,这个过程即将所有的Map阶段产出的结果进行汇集. 上述过程可以说是一个显而易见的过程,所以说MapReduce是一个极其简单而有极其复杂的编程模式.说它简单是因为在程序员使用它编程解决实际问题时,他只要编写一个Mapper函数和一个Redu

MongoDB中MapReduce编程模型使用实例_MongoDB

注:作者使用的MongoDB为2.4.7版本. 单词计数示例: 插入用于单词计数的数据: 复制代码 代码如下: db.data.insert({sentence:'Consider the following map-reduce operations on a collection orders that contains documents of the following prototype'})db.data.insert({sentence:'I get the following e

PAI分布式机器学习平台编程模型演进之路

什么是PAI? PAI的全称是Platform of Artificial Intelligence,主要在使用机器学习做模型训练时提供整套链路.机器学习即服务,把机器学习作为服务对外推出,大家可以在平台上使用比较先进的机器学习算法.将多种深度学习框架集成到PAI中,同时基于深度学习框架包装成更加易用的组件.具备异构的计算服务能力,把CPU计算能力和GPU计算能力统一调度起来,异构的计算能力透明,大家的注意力是哪些机器学习算法可以帮助业务,不用关心底层资源的申请和分配.PAI也支持在线预测服务,