《异构信息网络挖掘: 原理和方法(1)》一第1章 引言

第1章 引言

我们生活在一个相互连接的世界中。大量的数据或信息化对象、个体、群组或其组成部件之间相互联系、相互影响,形成了数量众多、规模庞大、相互连接的复杂网络。不失一般性,本书称这种相互连接的网络为信息网络(information network)。信息网络的实例包括社交网络、万维网、研究成果发表网络[22]、生物网络[55]、交通网络[32]、公共健康系统、电网,等等。显然,信息网络随处可见,是现代信息基础设施的重要组成部分。如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网)的分析,已经受到计算机科学、社会科学、物理、经济学、生物学等领域研究者的广泛关注,并在各个学科中获得了令人激动的发现和成功的应用。
当前大多数关于网络科学、社交和信息网络的研究,通常假设网络是同构的(homogeneous),即网络中的节点都是相同实体类型的对象(如人),并且链接都是相同关联类型的关系(如朋友关系)。这些研究获得了许多有趣的结果以及众多有重要影响的应用,例如知名的PageRank算法[10]和社区探测方法等。然而,实际中大多数网络是异构的(heterogeneous),即网络中的节点和关系并不是相同类型的。例如,在一个医疗保健网络中,节点可以是病人、医生、检查、疾病、药物、医院、治疗,等等。如果将所有节点视为同一类型可能会丢失重要的语义信息。另一方面,如果将每一个节点都作为一个单独的类型同样会遗失有价值的信息。相比于医生或者疾病这些类型,我们可以把所有病人看成同一个类型。因此,类型化、半结构化的异构网络建模可以捕获真实世界中最根本的语义信息。
类型化的、半结构化的异构信息网络无所不在。例如,Facebook网络由用户以及照片、消息、公司、电影等多种类型对象组成。除了人与人之间的朋友关系,还存在着其他类型的关系,如个人与照片之间的标记关系、个人与电影之间的喜好关系、个人与消息之间的发布关系、消息与消息之间的回复关系等。一个大学网络也可由不同类型的对象(如学生、教授、课程、院系),以及这些对象之间的交互(如教学、课程注册或所属院系等关系)构成。从社交媒体到各种科学性、工程性或者医疗性的系统,再到在线电子商务系统,这样的例子比比皆是。因此,异构信息网络是对真实世界各领域中不同类型的网络实体间相互关系的强大且丰富的表达。

在本书中,通过借助网络中节点与链接的类型的语义,我们探讨了异构信息网络挖掘的原理和方法,并且提出了能够探究这些丰富语义并解决现实世界问题的模型与算法。通常,异构信息网络包含着同构网络中的语义结构。异构网络中的链接代表网络中不同类型对象之间的相互关系,一般包含着这些对象之间的相似性或者影响力,这些都很难用传统的特征来表达。信息在网络中通过不同类型的关系(即异构链接)在不同的对象之间传播。这些信息具有不同的语义,并且确定了连接对象间影响力的强度。这些原理为处理异构信息网络中各种挖掘任务(包括排名、聚类、分类、相似性搜索、关系预测和关系强度学习等)的方法学研究奠定了基础。我们将分章节介绍这些挖掘任务和与它们相关的新的原理及方法。

时间: 2025-01-31 09:21:19

《异构信息网络挖掘: 原理和方法(1)》一第1章 引言的相关文章

《异构信息网络挖掘: 原理和方法》—— 第1章 引言

第1章 引言     我们生活在一个相互连接的世界中.大量的数据或信息化对象.个体.群组或其组成部件之间相互联系.相互影响,形成了数量众多.规模庞大.相互连接的复杂网络.不失一般性,本书称这种相互连接的网络为信息网络(information network).信息网络的实例包括社交网络.万维网.研究成果发表网络[22].生物网络[55].交通网络[32].公共健康系统.电网,等等.显然,信息网络随处可见,是现代信息基础设施的重要组成部分.如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网

《异构信息网络挖掘: 原理和方法》—— 1.2 为什么异构网络挖掘是一项新的挑战

1.2 为什么异构网络挖掘是一项新的挑战     已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名.社区探测.链接预测.影响分析等方法.然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘.这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息.通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息.例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络.然而,

《异构信息网络挖掘: 原理和方法》—— 1.3 本书的内容组织

1.3 本书的内容组织     第1章介绍了异构信息网络挖掘问题.然后,本书分为三个部分,每个部分包含两章内容,它们讲述了异构信息网络挖掘的原理和方法,并且按照不同的挖掘任务来组织.最后,第8章概述了这一研究领域的一些开放研究题目.第2~7章的主要内容总结如下.第一部分:基于排名的聚类和分类.通过区别不同链接类型间的信息传播,我们介绍了若干基本挖掘任务的研究,例如在异构信息网络中的聚类与分类.    第2章:基于排名的聚类.对于异构信息网络中基于链接的聚类,我们需要探索异构数据类型间的链接.最近

《异构信息网络挖掘: 原理和方法(1)》一1.3 本书的内容组织

1.3 本书的内容组织 第1章介绍了异构信息网络挖掘问题.然后,本书分为三个部分,每个部分包含两章内容,它们讲述了异构信息网络挖掘的原理和方法,并且按照不同的挖掘任务来组织.最后,第8章概述了这一研究领域的一些开放研究题目.第2~7章的主要内容总结如下.第一部分:基于排名的聚类和分类.通过区别不同链接类型间的信息传播,我们介绍了若干基本挖掘任务的研究,例如在异构信息网络中的聚类与分类.第2章:基于排名的聚类.对于异构信息网络中基于链接的聚类,我们需要探索异构数据类型间的链接.最近的研究开发的基

《异构信息网络挖掘: 原理和方法(1)》一1.2 为什么异构网络挖掘是一项新的挑战

1.2 为什么异构网络挖掘是一项新的挑战 已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名.社区探测.链接预测.影响分析等方法.然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘.这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息.通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息.例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络.然而,这样的投

《异构信息网络挖掘: 原理和方法(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《异构信息网络挖掘: 原理和方法》—— 1.1 异构信息网络是什么

1.1 异构信息网络是什么     信息网络是现实世界的抽象,关注于对象以及对象之间的交互.事实证明,这一层次的抽象既具有表达和存储现实世界本质信息的强大能力,同时通过运用链接的信息,为从现实世界挖掘知识提供了一个有用的工具.形式上,我们如下定义一个信息网络.     不同于传统网络的定义,我们明确区分网络中的对象类型和关系类型.注意,如果类型A和类型B之间存在一个关系,记为A R B,那么,对于其逆关系R-1,自然有B R-1 A成立.通常,R和其逆R-1是不相等的,除非其链接的两个对象具有相

《异构信息网络挖掘: 原理和方法(1)》一1.1 异构信息网络是什么

1.1 异构信息网络是什么 信息网络是现实世界的抽象,关注于对象以及对象之间的交互.事实证明,这一层次的抽象既具有表达和存储现实世界本质信息的强大能力,同时通过运用链接的信息,为从现实世界挖掘知识提供了一个有用的工具.形式上,我们如下定义一个信息网络. 定义11信息网络 是一个带有对象类型映射函数τ:→和链接类型映射函数:→的有向图G=(,),其中每个对象ν∈属于一个特定的对象类型τ(ν)∈,每个链接e∈属于一个特定的关系(e)∈,如果两个链接属于同一个关系类型,那么这两个链接具有相同类型

《异构信息网络挖掘: 原理和方法》—— 导读

前 言     当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养