数据挖掘聚类算法之K-MEDOIDS

K-MEANS顾名思义K-均值，通过计算一类记录的均值来代表该类，但是受异常值或极端值的影响比较大，这里介绍另外一种算法K-medodis。看起来和K-means比较相似，但是K-medoids和K-means是有区别的，不一样的地方在于中心点的选取，在K-means中，我们将中心点取为当前cluster中所有数据点的平均值，在 K-medoids算法中，我们将从当前cluster 中选取这样一个点——它到其他所有（当前cluster中的）点的距离之和最小——作为中心点。

K-MEANS算法的缺点：
产生类的大小相差不会很大，对于脏数据很敏感。
改进的算法：K-medoids方法。

这儿选取一个对象叫做mediod来代替上面的中心的作用，这样的一个medoid就标识了这个类。

K-MEDODIS的具体流程如下：
1）任意选取K个对象作为medoids（O1,O2,…Oi…Ok）。　　
2）将余下的对象分到各个类中去（根据与medoid最相近的原则）；　　
3）对于每个类（Oi）中，顺序选取一个Or，计算用Or代替Oi后的消耗—E（Or）。选择E最小的那个Or来代替Oi。这样K个medoids就改变了。
4）重复2、3步直到K个medoids固定下来。　　
不容易受到那些由于误差之类的原因产生的脏数据的影响，但计算量显然要比K-means要大，一般只适合小数据量。

原文发布时间为：2013-08-4

时间： 2024-10-04 19:14:02

数据挖掘聚类算法之K-MEDOIDS的相关文章

[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

0 前言本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词): 2.调用scikit-learn中的K-means进行文本聚类: 3.使用PAC进行降维处理,每行文本表示成两维数据: 4.最后调用Matplotlib显示聚类效果图. 文章更详细的内容参考:http://blog.csdn.net/eastmount/article/details/50473675由于涉及

机器学习算法实践 K均值聚类的实用技巧

Bilal Mahmood:我们最常做的分析之一,便是在数据中提取模式. 比方说,某公司的客户可被划分入哪些细分市场? 我们如何在用户网络中找到特定群体的聚类? 通过机器学习的方式,我们可以得到这些问题的答案. 即使当我们不知道需要查找哪些特定数据段,亦或我们的数据格式是非结构化数据,我们都可以有这么一种技术手段,在算法上,分析出数据中合理的数据模式,合适的数据段和分类结果. 在本文中,我们将会详细介绍一种算法,K-Means Clustering(K均值聚类),包括如何衡量其效果,以及如何确定

K-means聚类算法

K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般.最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用.看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想. 聚类属于无监督学习,以往的回归.朴素贝叶斯.SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类.而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集.聚类的目的是找到每个样本x潜

一文读懂聚类算法

1. 聚类的基本概念 1.1 定义聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大.也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离. 1.2 聚类与分类的区别 Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起.因此,一个聚类算法通常只需要知道如何计算相似度就可

【独家】一文读懂聚类算法

1. 聚类的基本概念 1.1 定义聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大.也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离. 1.2 聚类与分类的区别 Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起.因此,一个聚类算法通常只需要知道如何计算相似度就可

k-means聚类算法C++实现

Clustering 中文翻译作"聚类",简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它"这个东西被分为某某类"这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行"学习",从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习).而在聚类的时候,我们并不关心某一类是什么,我

k-medoids聚类算法实现

k-medoids聚类算法,即k-中心聚类算法,它是基于k-means聚类算法的改进.我们知道,k-means算法执行过程,首先需要随机选择初始质心,只有第一次随机选择的初始质心才是实际待聚类点集中的点,而后续将非质心点指派到对应的质心点后,重新计算得到的质心并非是待聚类点集中的点,而且如果某些非质心点是离群点的话,导致重新计算得到的质心可能偏离整个簇,为了解决这个问题,提出了改进的k-medoids聚类算法. k-medoids聚类算法也是通过划分的方式来计算得到聚类结果,它使用绝对差值和(S

机器理解大数据的秘密：聚类算法深度详解

看看下面这张图,有各种各样的虫子和蜗牛,你试试将它们分成不同的组别? 不是很难吧,先从找出其中的蜘蛛开始吧! 完成了吗?尽管这里并不一定有所谓的「正确答案」,但一般来说我们可以将这些虫子分成四组:蜘蛛.蜗牛.蝴蝶/飞蛾.蜜蜂/黄蜂. 很简单吧?即使虫子数量再多一倍你也能把它们分清楚,对吗?你只需要一点时间以及对昆虫学的热情就够了--其实就算有成千上万只虫子你也能将它们分开. 但对于一台机器而言,将这 10 个对象分类成几个有意义的分组却并不简单--在一门叫做组合学(combinatorics)的

Science上发表的聚类算法，C++编程实现，有一个bug不知道怎么解决！！跪求大神！！！

问题描述 Science上发表的聚类算法,C++编程实现,有一个bug不知道怎么解决!!跪求大神!!! include<iostream> include<fstream>using namespace std; typedef struct sourcedata //声明了一个原始数据结构体 { int m; //矩阵的行rows int n; //矩阵的列columns double **data; //保存数据的二维指针 }SourceData; SourceData get

猜你喜欢

Oracle数据库的自动备份

对于一个管理信息系统来说,数据库中数据的重要性是显而易见的,管理员们总是想尽一切办法来确保它们的安全.在那些要求每周7天.每天24小时不间断运行的系统中,管理员们动用了UPS.RIAD.备份站点等几乎 ...

建立自己的jsp app目录

js 建立自己的jsp app目录 1.到Tomcat的安装目录的webapps目录,可以看到ROOT,examples等Tomcat自带的的目录: 2.在webapps目录下新建一个目录,起名叫my ...

无尽：我眼中的网站内容建设

我前面写过一篇文章<我眼中的网站外链建设>是关于网站外链建设的.当然,我个人的观点开看,外链是最重要的,但是网站的内容也是非常重要的一个因素!在很多站长来看,网站的内容建设无非是多些原创文 ...

C++的数据与类型

一.前言最近在看C++Primer第5版,先前已经看过第4版,但是发现第5版在整个知识布局与个别知识的讲解上跟第4版差别还是挺大的,尤其是新增了C++11的内容,正如孟岩老师在第5版前言中所讲:&q ...

Java虚拟机类装载的原理及实现

一.引言 Java虚拟机(JVM)的类装载就是指将包含在类文件中的字节码装载到JVM中, 并使其成为JVM一部分的过程.JVM的类动态装载技术能够在运行时刻动态地加载或者替换系统的某些功能模块, 而不 ...

Python中将单词首字母大写的capitalize()方法

这篇文章主要介绍了浅析Python中将单词首字母大写的capitalize()方法,是Python入门中的基础知识,需要的朋友可以参考下 capitalize()方法返回字符串的一个副本,只有它的 ...

Win7如何创建安全的Guest账户

有时候,我们可能需要创建一个Guest账户,即所谓的来宾用户,它可以访问计算机,但权限会受到限制.关于什么是Guest账户,微软Windows 7给出的官方解释是,通过来宾帐户,用户可以临时访问您 ...

怎么查看win7系统中的无线密码

通常我们在使用无线的时候,第一次输入无线密码连接到无线网络后,每次开机就不需要输入无线密码了,而是win7旗舰版系统自动连接了,久而久之,很多朋友就把无线密码给忘记了,如果这时候你想分享给你的朋友而又 ...

c++-如何用java或者C++编写一个可以验证网络IP接入段合法性并且控制其流量的简易服务器呢？

问题描述如何用java或者C++编写一个可以验证网络IP接入段合法性并且控制其流量的简易服务器呢? 本人不是学编程,但是毕业设计里面需要做这个 ,希望各路大神不吝赐教解决方案 http://wen ...

android 读取联系人的问题

问题描述 android 读取联系人的问题 android 读取联系人时,我想通过关键字.拼音和电话号码搜索出联系人,应该什么实现,求大神指点.谢谢! 解决方案在selection加控制就可以了啊

java-ThreadLocal是解决线程安全问题

早在JDK 1.2的版本中就提供Java.lang.ThreadLocal,ThreadLocal为解决多线程程序的并发问题提供了一种新的思路.使用这个工具类可以很简洁地编写出优美的多线程程序. 当使 ...

java c++ dll-java调用C++封装的DLL问题

问题描述 java调用C++封装的DLL问题现在有一C++写的dll,C++传递消息采用SendMessage发送传递的,在java中已取得dll中sendmesssage发送的指针值即内存地址的指 ...

Photoshop加强室内人像的质感并润色

作者调色非常专业,对调色工具的属性非常了解.其中包括一些调色工具的细微参数设置.可能这些并不常用.不过对调色有很大的帮助. 原图最终效果 1.打开原图素材,选择菜单:图像>模式>L ...

广东三城市固话并网统一使用八位号码

取消移动电话漫游费 ■新快报记者杨晓霞佚芙通讯员中市宣昨日,珠海.中山.江门三市领导齐聚中山,召开珠中江区域紧密合作第二次联席会议.在全体与会人员的共同见证下,三市常务副市长代表各市签署了& ...

unittest-Unittest时报了java.lang.NoClassDefFoundError:

问题描述 Unittest时报了java.lang.NoClassDefFoundError: Unittest时报了java.lang.NoClassDefFoundError: oracle/as ...

提升CRM实施成功率

CRM概念从1999年传入中国,经过近20年的发展,已发展成为覆盖企业运作全部内容的大集成软件,一度被认为在企业运营模式改变.信息化.销售管理和核心竞争力提升方面有着阿拉丁神灯般的魔力.起初,CRM只 ...

联想刚刚发布的财报显示

联想集团CFO黄伟明在财报会议上透露,联想乐Phone第四财季销量少于10万部.联想乐Phone第四财季销量少于10万部,虽然联想没有透露季度内乐Phone的具体销售数字,但低于10万部的概况也已经创 ...

中国云计算厂商营收排名：阿里云完虐微软

基于一些公开数据或者其他机构的调研数据,下面是"科技拾点见"专门整理的一份中国专业云计算厂商的营收排行榜单. 根据榜单显示,阿里云以55.6亿元全年营收位居第一,是第二名微软Azu ...

Oracle ERP云助力中国成长型企业腾飞

随着时代的发展和科技的进步,合理调配资源.优化配置成为了众多企业持续发展并走向商业成功的基石.在全新的云时代,越来越多的企业也意识到,传统部署方式的ERP系统已在市场的快速变化中尽显疲态,无法与时俱进 ...

中国雅虎总编辑刘峥：十年经济的三次浪潮

从CCTV年度经济人物看产业资本和金融资本的十年变迁 2008年9月15日,美国雷曼兄弟公司破产.这拉开了席卷全球的金融危机序幕,世界经济由此陷入严重的衰退境地.经济危机下,各国政府纷纷推出救市措施. ...

php 利用socket发送HTTP请求（GET，POST）_php技巧

今天给大家带来的是如何利用socket发送GET,POST请求.我借用燕十八老师封装好的一个Http类给进行说明. 在日常编程中相信很多人和我一样大部分时间是利用浏览器向服务器提出GET,POST请求 ...

jQuery圆形统计图开发实例_jquery

本文实例讲述了jQuery圆形统计图开发的方法.分享给大家供大家参考.具体分析如下: 这里我们要给大家介绍一款圆形统计图circliful,它基于HTML5的画布和jQuery,无需使用图像轻松实现圆 ...

c语言编程-为什么这两个，在for里可以，在外面的不可以？？？求解答

问题描述为什么这两个,在for里可以,在外面的不可以???求解答解决方案你求素数的思路是:(100~200)中只要不能被(2~所计算数的一半(n/2))整除就认为该计算数不是素数,并将" ...

好消息！ARM要将服务器扩展到物联网领域

ARM在11月10日(星期二)召开的年会上审视了公司从服务器到物联网云服务过渡的各项工作.ARM公司技术总监Mike Muller在开幕式上做主题演讲时对半导体行业的未来表示乐观. Muller 表示 ...

synflood没有反应。。

问题描述我用synflood攻击自己的计算机,可是发现自己的机子毫无变化,攻击我们宿舍的机子也是..没有反应,然后用netstat-an查了,发现根本没有被攻击的迹象,请各位大神帮看看怎么回事:#d ...

网传谣言依法逮捕

本报4月25日讯(通讯员苑国强记者李涛)20日,一网名为"chinacha***"的男子在网络上发帖声称"在安丘某路段发现女性裸尸",并称"消息是从警 ...

站长圈转风向标了都玩自媒体了

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅今天偶然的在百度搜索了自媒体这个关 ...

div-纯css滑动门技术，希望能有详细的回答

问题描述纯css滑动门技术,希望能有详细的回答为什么使用滑动门后两张图片不能很好的衔接让人看起来像是一个整体. 总会多出一点点,看起来不是那么的流畅.导致这种错误的关键点是什么解决方案 http ...

媒体曝华为官网商城因订单延误遭集体投诉

资料图片手机官网商城是手机销售渠道变革的产物,渠道对手机商家至关重要,业内人事有得渠道者得天下一说.小米手机是电子销售渠道的领头羊,2011年9月5日,小米首次提出预订销售,仅仅34小时卖出了两个多 ...

UIKit 框架之UISlider

// // ViewController.m // UISlider // // Created by City--Online on 15/5/19. // Copyright (c) 2015年 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.032 s.