基础篇：数据挖掘的聚类算法和优势

文|十方

比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类数量，类间差异（范围大小，样本个数，形状差异）

可以参照一下sklearn网站给出的列表：2.3. Clustering

除了这些聚类方法以外，统计老师讲过一些传统的聚类方法，归属于系统聚类的范畴，先定义观测间的距离和类之间的距离计算方法，然后按照距离把最接近的两个观测（类）合并，直到合并成一个大类为止。

最短距离法：

类间距为两类中最近观测的距离。
不限制类形状，对拉长的分布效果好，会删除边缘的观测点

最长距离法：

类间距为两类中最远观测的距离。
倾向于产生直径相等的类，易受异常值影响。

中间距离法：

类间距为最长距、最短距、类内距离的加权。

重心法：

类间距为两类重心之间的距离
对奇异值稳健

类平均法：

类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类，偏向于产生方差相同的类。

离差平方和法：

将合并后类内方差最小的两类合并
倾向于产生数量相等的两类，对异常值敏感

密度估计：

较远的距离设为无穷。较近的两个样本，距离与局部密度成反比。
适用于不规则形状类，不适用样本数太少。

两阶段密度估计：

用密度估计计算距离，再用最短距离法聚类。
普适性较强

除了以上这些常见方法，值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大，邻域范围难以设定的问题，非常鲁棒，看起来棒棒的。

ps：如果希望聚的效果好，距离度量方法有时候比聚类方法更重要。

时间： 2024-09-17 18:30:52

基础篇：数据挖掘的聚类算法和优势的相关文章

【算法与数据结构】在n个数中取第k大的数（基础篇）

(转载请注明出处:http://blog.csdn.net/buptgshengod) 题目介绍在n个数中取第k大的数(基础篇),之所以叫基础篇是因为还有很多更高级的算法,这些以后再讨论.本文用两种最基本的方法来解决这个问题.使用java语言描述.例子是十个数中取第三大的. 算法一用冒泡法将n个数从大到小排序,再取第k大. public class test { public static void main(String []args) { i

[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

0 前言本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词): 2.调用scikit-learn中的K-means进行文本聚类: 3.使用PAC进行降维处理,每行文本表示成两维数据: 4.最后调用Matplotlib显示聚类效果图. 文章更详细的内容参考:http://blog.csdn.net/eastmount/article/details/50473675由于涉及

数据挖掘十大算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响. 1. C4.5 C

SQL Server调优系列基础篇（常用运算符总结）

原文:SQL Server调优系列基础篇(常用运算符总结) 前言上一篇我们介绍了如何查看查询计划,本篇将介绍在我们查看的查询计划时的分析技巧,以及几种我们常用的运算符优化技巧,同样侧重基础知识的掌握. 通过本篇可以了解我们平常所写的T-SQL语句,在SQL Server数据库系统中是如何分解执行的,数据结果如何通过各个运算符组织形成的. 技术准备基于SQL Server2008R2版本,利用微软的一个更简洁的案例库(Northwind)进行解析. 一.数据连接数据连接是我们在写T-SQL语

数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析

机器理解大数据的秘密：聚类算法深度详解

看看下面这张图,有各种各样的虫子和蜗牛,你试试将它们分成不同的组别? 不是很难吧,先从找出其中的蜘蛛开始吧! 完成了吗?尽管这里并不一定有所谓的「正确答案」,但一般来说我们可以将这些虫子分成四组:蜘蛛.蜗牛.蝴蝶/飞蛾.蜜蜂/黄蜂. 很简单吧?即使虫子数量再多一倍你也能把它们分清楚,对吗?你只需要一点时间以及对昆虫学的热情就够了--其实就算有成千上万只虫子你也能将它们分开. 但对于一台机器而言,将这 10 个对象分类成几个有意义的分组却并不简单--在一门叫做组合学(combinatorics)的

k-means聚类算法原理及其实现

k-means(k-均值)算法是一种基于距离的聚类算法,它用质心(Centroid)到属于该质心的点距离这个度量来实现聚类,通常可以用于N维空间中对象.下面,我们以二维空间为例,概要地总结一下k-means聚类算法的一些要点: 除了随机选择的初始质心,后续迭代质心是根据给定的待聚类的集合S中点计算均值得到的,所以质心一般不是S中的点,但是标识的是一簇点的中心. 基本k-means算法,开始需要随机选择指定的k个质心,因为初始k个质心是随机选择的,所以每次执行k-means聚类的结果可能都不相同.

K-means聚类算法

K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般.最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用.看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想. 聚类属于无监督学习,以往的回归.朴素贝叶斯.SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类.而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集.聚类的目的是找到每个样本x潜

《Sony Vegas Pro 12标准教程》——第1章基础篇——基础知识 1.1 影视剪辑的概念

第1章基础篇--基础知识在你拿起这本书的时候,我想,你应该已经准备好创作属于自己的影片了:同时,也选择了Sony Vegas作为你的剪辑软件.你的心里既充满了期待,也充满了迷惘.没错,剪辑不仅仅是软件本身的功能,同时也代表了你对于视频画面的深层感悟.那么,即刻起,无论你是一名新手,还是曾经拥有属于自己的影片,都请走进Sony Vegas的世界,去看看Vegas能为你的影片带来哪些令人惊叹的效果. 本章学习要点了解剪辑的概念与技法掌握场序.分辨率.宽高比知识熟悉音视频格式与编解码器掌握