基于Hadoop平台下的Canopy-Kmeans高效算法

基于Hadoop平台下的Canopy-Kmeans高效算法

赵庆

介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。

基于Hadoop平台下的Canopy-Kmeans高效算法

时间: 2024-10-24 20:34:17

基于Hadoop平台下的Canopy-Kmeans高效算法的相关文章

查询语句-基于eclipse平台下用C++做一个SPARQL语言的解析器

问题描述 基于eclipse平台下用C++做一个SPARQL语言的解析器 近期有个项目就是做一个SPARQL语言的解析器,将SPARQL查询语句解析成语法树的形式,我真的不知道从哪里下手,真心求助.有乐意帮助的可以跟我详细交流,万分感谢- 解决方案 下面这个看看http://wenku.baidu.com/link?url=PsJMCc7EvZJJZgtgPnM_pi_yLB9zHsAZRz7jsGEBhMr2hhrjb4k9-sIi_L3QkJY2oUSPbL2HF0N7Cd5JycxQpDT

基于J2ME平台下SOAP协议的应用

J2ME作为嵌入式系统应用平台得到了迅速的发展,JAVA语言固有的平台无关 性使得基于J2ME平台的嵌入式应用系统具有广阔的前景.受限于嵌入式设备及消 费类电器硬件条件的限制,J2ME平台提供的功能有限,如何能够在有限的资源下 拓展J2ME的功能,使得J2ME平台能够处理SOAP协议是本文研究的重点. 目前企业应用正在向面向WEB服务的SOA架构转变,嵌入式系统与企业应用系 统的连接目前还处于TCP/IP协议.HTTP协议等比较初级的阶段.随着企业应用系 统提供的WEB服务日益广泛和成熟,需要J

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

云平台下HDFS HA的研究与实现

云平台下HDFS HA的研究与实现 西北大学 王刚 本文针对上述存在的问题,进行了深入的研究.详细分析了NameNode单点故障的原因,并研究了现有方案的设计思想,同时对将Hadoop移植到现有云平台中的可行性进行了分析,提出了基于虚拟化平台下NameNode的高可用性方案.该方案从两个方面保证了NameNode的高可用性.一方面,实现了一种基于NameNode宿主机负载的迁移策略,当宿主机的负载过大时,该策略实现将NameNode实时迁移到一个合适的宿主机上,保证了NameNode提供不间断的

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

汪振平:基于Hadoop日志交易平台的架构及挑战

上海宝信高级工程师汪振平从金融行业入手,从背景.需求与目标.问题.系统架构及其它Hadoop相关知识5个方面对基于Hadoop的日志 交易平台进行深度分享: 背景 使用场景:信用卡消费的延时.交易失败和失败的原因及类型.不规范交易机构和商户的 寻找与产生原因. 数据特征:在数据量上,每天近3亿笔交易日志:在数据状态上,目前仅存储拟合后的交易,对原始交易日志不可用. 需求与目标:交易日志的秒级查询.交易失败分析.不合规交易分析.用户自助分析.与其它数据结合,找出交易失败原因及分析报告.报表. 打造

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

FreeBSD平台下Web服务器架设攻略

在FreeBSD系统中,一个标准的FreeBSD系统,至少要有一个网络界面以便与其他计算机通信.它支持Token Ring和FDDI,以及普通电话拨号连接.ISDN.ATM等广域网连接方式.本文要讨论的是基于此系统平台下的WEB服务的组建情况,FreeBSD的使用版本为4.7. 一.接入Internet 配置的第一步就是让FreeBSD接入Internet并设置好代理服务.本机使用ADSL接入Internet有两种情况,即通过拨号获取的动态ip或ISP提供的静态ip.以下主要介绍动态IP的配置过

.NET平台下Web测试工具横向比较

在浏览器中打开页面并加以判断,无疑是测试一个Web应用程序最直接的方式.借助一款合适的自动测试工具或框架,测试人员就可以在一定程度上从繁重的手动测试工作中解放出来.Ruby平台下的Watir无疑是这方面的姣姣者,因此被大量用于Web应用程序的回归测试或验收测试.不过对于使用.NET Framework的技术团队来说,Watir不一定是最好的选择.目前社区中已经出现了几款.NET平台下的Web测试框架,测试人员现在就可以使用自己最熟悉的语言来实现同样的功能,并与自己的开发环境无缝集成. WatiN