基于分布式的K-prototypes算法设计

基于分布式的K-prototypes算法设计

李兴

聚类算法已经在很多领域有着广泛的应用,对于大多数的数据集,其中的属性不完全是数值型的,这就给聚类带来了困难。K-Prototypes算法的出现,解决了混合型属性聚类的困难,但其计算重复繁琐,给编程人员带来了大量的困难。Hadoop分布式系统的出现,给编写并行化的K-Prototypes算法提供了可能,这就能提高程序的并行化从而大幅度提高程序的效率。文章正是在此技术前提下,设计的并行化程序。

基于分布式的K-prototypes算法设计

时间: 2024-08-03 12:34:15

基于分布式的K-prototypes算法设计的相关文章

《算法设计与分析》一一第3章 线性表的遍历

第3章 线性表的遍历 线性表是一种简单又广泛使用的数据结构.线性表中所有的元素组成线性序列.除头尾之外的每个元素都有唯一的前驱和后继:头元素只有后继,没有前驱,而尾元素只有前驱,没有后继.线性表的特征决定了我们很容易从头至尾依次扫描其中的每一个元素,而这一简单的遍历过程可以解决很多重要的算法问题. 线性表的遍历是在算法的简单性与高效性之间的一种权衡.基于线性表遍历的算法往往原理简单.易于实现和维护:但是其效率往往较低,有较大的提升空间.以线性表遍历为基础,我们可以进行更复杂的算法设计,例如,以遍

基于染色的分布式弱连通分量求解算法

基于染色的分布式弱连通分量求解算法 肖有诰 谭菊仙 李璞 社交网络.生物信息网络等链接关系数据呈现爆炸性增加,对亿万个顶点级别的大图处理需求愈加迫切,传统的图算法对单点内存的计算依赖性已经不能满足数据规模急速增长的需求.本文针对图的弱连通分量求解问题,提出了一种快速.可扩展的迭代染色算法CR,并建立了算法的MapReduce模型.最后,在Hadoop平台上,对斯坦福大学社会网络分析实验室提供的四组通联数据进行测试,并和开源的数据挖掘工具箱XRIME提供的算法进行了对比. 基于染色的分布式弱连通分

下一代信息推荐系统的算法设计与性能评估

信息总量的爆炸性增长导致"信息过载"--用户难以在海量信息中找到自己需要的对象.信息推荐系统被认为是解决信息过载最有效的工具[1],其最早的研究可以追溯到30年前[2],而90年代早期关于信息推荐的概念就已基本成型[3]. 传统推荐系统往往基于用户或对象的相似性,本质上是集中化的静态系统[4].海量数据的出现,Web2.0技术的成熟,用户实时反馈需求的增加和在线社会网络的涌现提出了对下一代信息推荐系统的需求[5].这方面的研究不仅可以推动数据挖掘和信息过滤理论和技术的发展,而且对在线零

《算法设计与分析》一一2.1 数学运算背后的算法操作

2.1 数学运算背后的算法操作 虽然我们已经熟知很多数学概念与性质,但是从算法设计与分析的角度来看,还需要进一步将这些数学的概念与算法的运作联系起来.下面就从这一角度来讨论几组算法设计与分析中常用的数学概念与性质.2.1.1 取整x和x 我们熟知取整函数的定义:下取整函数x表示不超过x的最大整数:上取整函数x表示不小于x的最小整数.需要取整函数的本质原因在于算法分析中涉及的一些量往往是某种离散对象的个数,它必然是正整数.例如,算法的代价是关键操作的个数,问题的规模经常表示为输入元素的个数.输入数

《算法设计与分析》一一1.2 抽象算法设计

1.2 抽象算法设计 算法设计源于我们面临一个有待解决的算法问题.为此,我们首先讨论算法问题的严格定义,其次讨论算法设计,主要讨论证明算法正确性的基本方法.1.2.1 算法问题规约 基于RAM模型,我们主要讨论这样的算法:它接受有限的数据作为输入,进行相应的处理,在有限步内终止,并给出输出.因此我们可以将算法问题严格地定义为精确限定输入/输出的"规约"(specification)形式. 定义1.1(算法问题规约) 一个算法问题的规约主要包括两部分: ●输入:明确规定了算法接受的所有合

《算法设计与分析》一一3.3 习题

3.3 习题 3.1 请采用数学归纳法证明插入排序(算法5)的正确性. 3.2 (冒泡排序) 冒泡排序(算法6)对数组A[1..n]中的元素进行排序.算法6:BUBBLE-SORT(A[1..n]) 1 for i∶=n downto 2 do 2 for j∶=1 to i-1 do 3 if A[j]>A[j+1] then 4 SWAP(A[j], A[j+1]);1) 请证明冒泡排序的正确性. 2) 请分析冒泡排序的最坏情况.平均情况时间复杂度.(注:我们以元素的比较为关键操作,数组元素

《算法设计与分析》一一2.3 “分治递归”求解

2.3 "分治递归"求解 递归是一种基本的算法设计方法,而递归算法的代价往往可以用递归方程来描述,因而解递归方程就成为递归算法分析的重要技术.分治策略(divide and conquer)是一种简单而有效的算法设计策略(详见第三部分各章节的讨论),源自于分治算法分析的一类特定形式的递归方程我们称之为"分治递归"(divide and conquer recursion).本节着重讨论"分治递归"的求解方法.2.3.1 替换法 有一种"

基于Hadoop的云安全存储系统的设计与实现

基于Hadoop的云安全存储系统的设计与实现 广东工业大学  蒋向阳 云计算是分布式计算.并行计算和网格计算的发展,给人类生活.生产方式和商业模式带来根本性改变,是当前全社会关注的热点之一.云存储是从云计算概念上延伸发展出来的一个新的概念,它是指通过集群应用.网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统.随着云计算技术与云存储技术的广泛应用,其存在的安全问题不断突显出来,安全问题已成为阻碍云计算和云存

基于Hadoop的电子商务推荐系统的设计与实现

基于Hadoop的电子商务推荐系统的设计与实现 李文海 许舒人 为了解决大数据应用背景下大型电子商务系统所面临的信息过载问题 研 究 了 基于构建分布式电子商务推荐系统的方案采用基于模型实现的算法具有较高的伸缩性和性能 能高效地进行离线数据分析为了克服单一推荐技术的不足 设计了融合多种互补性推荐技术的混合推荐模型实验结果表明基于平台实现的推荐系统具有较好的伸缩性和性能. 基于Hadoop的电子商务推荐系统的设计与实现