聚类基本数学模型

聚类方法是一类用途非常广泛的算法,聚类包含很多各式各样的算法。所有这些算法都有它的基本数 学模型。本文就简单介绍一下聚类的基本数学模型。了解了基本数学模型就了解了聚类最本质的原理。 无论是学习算法还是自己开发新的算法,学习基本数学模型都是很有帮助的。本文的目的一方面是介绍 数学模型,另一方面也算是自己学习内容的一个记录吧。

假设X={x1,x2,…,xn}是待分析的对象全体,也可称为论域或 样本集合。X中的每个对象(也可称为样本)常用有限个参数值来刻画(这里的参数值也可称为样本的属性值),每个参数值用于刻画 xi的某个特征(属性)。于是对象xi就伴随着一个向量P(xi)= (xi1,xi2,…,xim), 其中xij()是xi在j个 特征上的值,P(xi)称为xi的特征向量或模式向量(也可理解为用于定义聚类中 心的向量,不过这样的理解并不严谨,因为并非每种聚类方法都是以类似于KMEANS那样的中心点来定义 簇的,所以在数据模型中以P(xi)来表示在意义上更加抽象)。聚类分析就是分析论域或样 本集合X中的n个样本所对应的模式矢量间的空间距离及分散情况,按照各样本间的距离远近或相似程度 把x1, x2,…, xn划分成k个不相交的模式子集X1, X2, …, Xk,并要求满足下列条件:

样本对子集的隶属度关系可用隶属度函数表示为:

其中,隶属度函数必须满足条件。也就是说:

要求每一个样本能且只能隶属于某一类。

要求每个子类都是非空的。

在这个表达式中是用于约束"每一个样本能且只能属于某一类";用于约束"每个子类都是非空的"。将以上定义的隶属度函数wij扩展到[0,1]这个 区间即为模糊聚类的定义。模糊聚类又称为软聚类,相应的非模糊聚类也可称为硬聚类。

时间: 2024-08-31 08:08:56

聚类基本数学模型的相关文章

模糊聚类中的F统计量用什么工具来计算

问题描述 模糊聚类中的F统计量用什么工具来计算呢,是matlab吗,如果用matlab的话,函数是什么呢

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍

        这次课程主要讲述一个关于Kmeans聚类的数据分析案例,通过这个案例让同学们简单了解大数据分析的基本流程,以及使用Python实现相关的聚类分析.         主要内容包括:         1.Anaconda软件的安装过程及简单配置         2.聚类及Kmeans算法介绍        3.案例分析:Kmeans实现运动员位置聚集         前文推荐:[Python数据挖掘课程]一.安装Python及爬虫入门介绍         希望这篇文章对你有所帮助,尤

matlab-谱聚类一些疑问spectral clustering

问题描述 谱聚类一些疑问spectral clustering 以Unnormalized为例,W -> D -> L=D-W, 对拉普拉斯矩阵求特征值和特征向量,然后对选取的特征向量阵进行聚类,得到聚类结果 但是在Matlab中,我直接对W进行按行聚类,同样能得到聚类结果,而且这样时间还大大缩短. 疑问?为什么会这样呢!!? 解决方案 聚类效果和数据集有关系, 解决方案二: 聚类效果和数据集有关系,

求一个计算复杂网络的节点的聚类系数的matlab程序

问题描述 求一个计算复杂网络的节点的聚类系数的matlab程序 有一个网络的邻接矩阵,要算出某个节点的聚类系数,就是与该节点的连接的k个节点之间的实际边的数目除以k(k-1) 解决方案 google下,有很多例子参考

[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

0 前言 本文主要讲述以下几点:        1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词):        2.调用scikit-learn中的K-means进行文本聚类:        3.使用PAC进行降维处理,每行文本表示成两维数据:        4.最后调用Matplotlib显示聚类效果图. 文章更详细的内容参考:http://blog.csdn.net/eastmount/article/details/50473675由于涉及

四种聚类方法的比较

聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗.动物植物.目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别.数据分析.图像处理.市场研究.客户分割.Web文档分类等[1]. 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大.即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离. 聚类技术[2]正在蓬勃发展,对此有贡献的

关于AP聚类聚不出来的preference设置问题

问题描述 关于AP聚类聚不出来的preference设置问题 我现在在做AP聚类,结果跑出来的程序没有结果,然后想问一下,我现在的preference设置的是中位数,是不是应该改小?用最小值?

bbmao的神秘配方:打破中文聚类搜索的低迷

尽管元搜索技术在国外搜索市场早已存在 但经过朱明谦"改良"的中文聚类搜索仍然打破了中文搜索市场创新乏力的低迷境况 采访·撰文 于焱 摄影 楼晓宁 3月的一天,朱明谦和往常一样早早来到办公室,打开电脑,登录bbmao主页,收看用户反馈. 十五分钟后,他停下手中的工作,为自己泡上一杯咖啡,站起来眺望远处.窗外是车水马龙的北三环,柳树枝头已经泛起新绿,同事们正陆续走进公司,员工已从最初的几个人增加到十六人,他和联合创始人李昌日不得不搬进一间小一点儿的办公室,把大办公室腾出来.虽然办公环境很挤

Mahout系列:kmeans 聚类

Kmeans是最经典的聚类算法之一,它的优美简单.快速高效被广泛使用. Kmeans算法描述 输入:簇的数目k:包含n个对象的数据集D. 输出:k个簇的集合. 方法: 从D中任意选择k个对象作为初始簇中心: repeat; 根据簇中对象的均值,将每个对象指派到 最相似的簇: 更新簇均值,即计算每个簇中对象的均值: 计算准则函数: until准则函数不 在发生变化. Kmeans 算法的优缺点: 1)优点 (1)k-平均算法是解决聚类问题的一种经典算法,算法简单.快速. (2)对处理 大数据集,该