《异构信息网络挖掘: 原理和方法》—— 第2章 基于排名的聚类 2.1 概述

第2章 基于排名的聚类

对于基于链接的异构信息网络聚类,我们需要探索涉及异构数据类型的链接。在这章中,我们学习如何使用不同类型的链接来计算不同类型对象的排名,展示排名和聚类如何相互提高,并最终获得合理的排名和聚类结果。我们将学习异构信息网络的两个特例:二元类型网络和星型网络。

2.1 概述

为了更好地理解信息网络,许多分析技术被设计出来,不过它们大多是基于同构信息网络的,其中两个方法值得关注:排名和聚类。一方面,根据数学化展示对象特征的排名函数,排名评价信息网络中的对象。通过这类函数,两个定性或定量的对象可以按一种偏序进行比较。其中PageRank[10]和HITS[34]或许是信息网络中最著名的排名算法。另一方面,聚类按照特定的相似性评价将对象进行分组,因此相似的对象在同一聚类中,反之不相似的对象则在不同的聚类中。总之,作为两个基础性的分析工具,排名和聚类可以用来总览信息网络,因此被广泛地应用于各种应用。
聚类和排名通常被视为不相干的技术,它们独立地应用于信息网络分析。然而,若只使用它们中的一个来分析信息网络常常会导致不完整,甚至有时带有偏见的分析结果。例如,在不考虑信息网络中各个对象所属聚类的前提下对它们进行排名,容易导致得到无用的结果。例如,将数据库和计算机体系的刊物或作者混在一起排名,没有什么意义;另外,无差别地将大量对象(如数千作者)聚集到一个类中也是没有意义的。然而,将两个功能(聚类和排名)集成在一起,则能得到更易于理解的结果,如例21所示。

继续考虑同一数据集。如果我们聚集在DB/DM领域的刊物,并且对该聚类中的刊物和作者进行排名,可以得到表23所示的结果。

例2.1表明,好的聚类确实提升了排名结果的质量。而且,考虑对象的排名通常能更好地理解每个聚类。通过整合聚类和排名,有助于得到更易于理解的网络分析结果。
在这一章中,我们介绍两个基于排名的聚类算法RankClus和NetClus。它们分别适用于异构信息网络的两种特例,即双类型网络和星型网络。对这两种类型的网络,我们需要使用异构链接来计算排名和基于排名的聚类。

时间: 2024-09-20 00:51:56

《异构信息网络挖掘: 原理和方法》—— 第2章 基于排名的聚类 2.1 概述的相关文章

《异构信息网络挖掘: 原理和方法(1)》一第2章 基于排名的聚类

第2章 基于排名的聚类 对于基于链接的异构信息网络聚类,我们需要探索涉及异构数据类型的链接.在这章中,我们学习如何使用不同类型的链接来计算不同类型对象的排名,展示排名和聚类如何相互提高,并最终获得合理的排名和聚类结果.我们将学习异构信息网络的两个特例:二元类型网络和星型网络.

《异构信息网络挖掘: 原理和方法》—— 1.2 为什么异构网络挖掘是一项新的挑战

1.2 为什么异构网络挖掘是一项新的挑战     已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名.社区探测.链接预测.影响分析等方法.然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘.这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息.通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息.例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络.然而,

《异构信息网络挖掘: 原理和方法(1)》一1.2 为什么异构网络挖掘是一项新的挑战

1.2 为什么异构网络挖掘是一项新的挑战 已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名.社区探测.链接预测.影响分析等方法.然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘.这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息.通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息.例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络.然而,这样的投

《异构信息网络挖掘: 原理和方法》—— 第1章 引言

第1章 引言     我们生活在一个相互连接的世界中.大量的数据或信息化对象.个体.群组或其组成部件之间相互联系.相互影响,形成了数量众多.规模庞大.相互连接的复杂网络.不失一般性,本书称这种相互连接的网络为信息网络(information network).信息网络的实例包括社交网络.万维网.研究成果发表网络[22].生物网络[55].交通网络[32].公共健康系统.电网,等等.显然,信息网络随处可见,是现代信息基础设施的重要组成部分.如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网

《异构信息网络挖掘: 原理和方法》—— 1.3 本书的内容组织

1.3 本书的内容组织     第1章介绍了异构信息网络挖掘问题.然后,本书分为三个部分,每个部分包含两章内容,它们讲述了异构信息网络挖掘的原理和方法,并且按照不同的挖掘任务来组织.最后,第8章概述了这一研究领域的一些开放研究题目.第2~7章的主要内容总结如下.第一部分:基于排名的聚类和分类.通过区别不同链接类型间的信息传播,我们介绍了若干基本挖掘任务的研究,例如在异构信息网络中的聚类与分类.    第2章:基于排名的聚类.对于异构信息网络中基于链接的聚类,我们需要探索异构数据类型间的链接.最近

《异构信息网络挖掘: 原理和方法(1)》一1.3 本书的内容组织

1.3 本书的内容组织 第1章介绍了异构信息网络挖掘问题.然后,本书分为三个部分,每个部分包含两章内容,它们讲述了异构信息网络挖掘的原理和方法,并且按照不同的挖掘任务来组织.最后,第8章概述了这一研究领域的一些开放研究题目.第2~7章的主要内容总结如下.第一部分:基于排名的聚类和分类.通过区别不同链接类型间的信息传播,我们介绍了若干基本挖掘任务的研究,例如在异构信息网络中的聚类与分类.第2章:基于排名的聚类.对于异构信息网络中基于链接的聚类,我们需要探索异构数据类型间的链接.最近的研究开发的基

《异构信息网络挖掘: 原理和方法(1)》一第1章 引言

第1章 引言 我们生活在一个相互连接的世界中.大量的数据或信息化对象.个体.群组或其组成部件之间相互联系.相互影响,形成了数量众多.规模庞大.相互连接的复杂网络.不失一般性,本书称这种相互连接的网络为信息网络(information network).信息网络的实例包括社交网络.万维网.研究成果发表网络[22].生物网络[55].交通网络[32].公共健康系统.电网,等等.显然,信息网络随处可见,是现代信息基础设施的重要组成部分.如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网)的分析

《异构信息网络挖掘: 原理和方法(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《异构信息网络挖掘: 原理和方法》—— 导读

前 言     当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养