《异构信息网络挖掘: 原理和方法(1)》一1.1 异构信息网络是什么

1.1 异构信息网络是什么

信息网络是现实世界的抽象,关注于对象以及对象之间的交互。事实证明,这一层次的抽象既具有表达和存储现实世界本质信息的强大能力,同时通过运用链接的信息,为从现实世界挖掘知识提供了一个有用的工具。形式上,我们如下定义一个信息网络。

定义11信息网络
是一个带有对象类型映射函数τ:→和链接类型映射函数:→的有向图G=(,),其中每个对象ν∈属于一个特定的对象类型τ(ν)∈,每个链接e∈属于一个特定的关系(e)∈,如果两个链接属于同一个关系类型,那么这两个链接具有相同类型的开始对象和结束对象。

不同于传统网络的定义,我们明确区分网络中的对象类型和关系类型。注意,如果类型A和类型B之间存在一个关系,记为A R B,那么,对于其逆关系R-1,自然有B R-1 A成立。通常,R和其逆R-1是不相等的,除非其链接的两个对象具有相同类型且R是对称的。当这些对象类型满足>1或者关系类型满足>1时,称这样的网络为异构信息网络;否则为同构信息网络。

给定一个复杂的异构信息网络,为了更好地理解网络中的对象类型与链接类型,需要给出其元级别(即模式级别)的描述。因此,我们提出网络模式的概念来描述网络的元结构。

定义12网络模式
是带有对象类型映射τ:→和链接映射:
→的异构网络G=(,)(即G是一个定义在对象类型上的有向图,它的边为中的关系)的元模板,记为TG=(,)。
异构信息网络的网络模式限定了对象集合以及对象间关系的类型约束。这些约束使得异构信息网络具有半结构化的特点,引导着网络语义的探究。
异构信息网络可以由许多相互连接的、大规模的数据集来构造,范围涉及社会、科学、工程、商业应用等。以下是一些异构信息网络的例子。
1)文献信息网络。文献信息网络,比如从DBLP中衍生出来的计算机科学文献信息网络,就是典型的异构网络。它包含4类实体:论文(P)、刊物(即会议/期刊)(V)、作者(A)和术语(T)。对于每一篇论文p∈P,都有到作者集合、刊物以及术语集合的链接,它们都属于链接类型的集合。论文p还可能包含一些论文的引用信息,即这些论文连接了论文p引用的论文或是引用论文p的论文。

文献网络的网络模式以及该网络的一个实例如图11所示。

2)Twitter信息网络。作为社交媒体,Twitter同样可以被看作是一个信息网络。它包括多种对象类型,如用户、推文、标签和术语,以及多种关系(或链接)类型,如用户之间的关注、用户与推文之间的发布、推文之间的回复、推文与术语之间的使用、推文与标签之间的包含。
3)Flickr信息网络。照片分享网站Flickr可被视为一个信息网络,它的对象类型包括图片、用户、标签、分组、评论等,它的关系类型包括用户与图片之间的上传、图片与标签之间的包含、图片与分组之间的属于、用户与评论之间的发表、评论与图片之间的评论等。
4)医疗信息网络。医疗系统可被建模为一个医疗信息网络,它的对象类型包括医生、病人、疾病、治疗、设备等,它的关系类型包括治疗方案与疾病之间的使用、病人与疾病之间的患病、病人与医生之间的就诊等。
几乎在所有领域都可以构建异构信息网络,这些领域包括:社交网络(如Facebook),电子商务(如Amazon和eBay),在线电影数据库(如IMDB)以及众多数据库应用。通过使用自然语言处理技术和其他先进技术提取实体和关系,异构信息网络也可以由文本数据(如新闻集合)构建。
信息网络可以关联各类信息。信息网络中的节点和链接都可以附加属性。例如,在Twitter信息网络中,名词型或数值型的位置信息通常与一些用户和推文相关联。同样,节点和链接通常附加时间信息,从而反映信息网络的动态性。例如,在文献信息网络中,每年都有新的论文和作者,以及与他们相关的链接出现。这样的问题将在一些信息网络挖掘任务中得到解决。

时间: 2024-08-31 03:05:34

《异构信息网络挖掘: 原理和方法(1)》一1.1 异构信息网络是什么的相关文章

《异构信息网络挖掘: 原理和方法》—— 1.2 为什么异构网络挖掘是一项新的挑战

1.2 为什么异构网络挖掘是一项新的挑战     已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名.社区探测.链接预测.影响分析等方法.然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘.这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息.通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息.例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络.然而,

《异构信息网络挖掘: 原理和方法》—— 第1章 引言

第1章 引言     我们生活在一个相互连接的世界中.大量的数据或信息化对象.个体.群组或其组成部件之间相互联系.相互影响,形成了数量众多.规模庞大.相互连接的复杂网络.不失一般性,本书称这种相互连接的网络为信息网络(information network).信息网络的实例包括社交网络.万维网.研究成果发表网络[22].生物网络[55].交通网络[32].公共健康系统.电网,等等.显然,信息网络随处可见,是现代信息基础设施的重要组成部分.如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网

《异构信息网络挖掘: 原理和方法》—— 1.3 本书的内容组织

1.3 本书的内容组织     第1章介绍了异构信息网络挖掘问题.然后,本书分为三个部分,每个部分包含两章内容,它们讲述了异构信息网络挖掘的原理和方法,并且按照不同的挖掘任务来组织.最后,第8章概述了这一研究领域的一些开放研究题目.第2~7章的主要内容总结如下.第一部分:基于排名的聚类和分类.通过区别不同链接类型间的信息传播,我们介绍了若干基本挖掘任务的研究,例如在异构信息网络中的聚类与分类.    第2章:基于排名的聚类.对于异构信息网络中基于链接的聚类,我们需要探索异构数据类型间的链接.最近

《异构信息网络挖掘: 原理和方法(1)》一1.3 本书的内容组织

1.3 本书的内容组织 第1章介绍了异构信息网络挖掘问题.然后,本书分为三个部分,每个部分包含两章内容,它们讲述了异构信息网络挖掘的原理和方法,并且按照不同的挖掘任务来组织.最后,第8章概述了这一研究领域的一些开放研究题目.第2~7章的主要内容总结如下.第一部分:基于排名的聚类和分类.通过区别不同链接类型间的信息传播,我们介绍了若干基本挖掘任务的研究,例如在异构信息网络中的聚类与分类.第2章:基于排名的聚类.对于异构信息网络中基于链接的聚类,我们需要探索异构数据类型间的链接.最近的研究开发的基

《异构信息网络挖掘: 原理和方法(1)》一1.2 为什么异构网络挖掘是一项新的挑战

1.2 为什么异构网络挖掘是一项新的挑战 已设计出许多方法用于分析同构信息网络,特别是在社交网络[1]领域,已有排名.社区探测.链接预测.影响分析等方法.然而,这些方法中的大多数并不能直接应用于异构信息网络挖掘.这不仅是因为连接不同类型实体的异构链接可能携带不一样的语义,还因为一般情况下,异构信息网络比同构网络具有更加丰富的信息.通常,对异构信息网络进行投影可以得到同构信息网络,但是这样会明显地丢失信息.例如,对一个完整的异构文献网络在合作者信息上进行投影,可以得到一个合作者网络.然而,这样的投

《异构信息网络挖掘: 原理和方法(1)》一第1章 引言

第1章 引言 我们生活在一个相互连接的世界中.大量的数据或信息化对象.个体.群组或其组成部件之间相互联系.相互影响,形成了数量众多.规模庞大.相互连接的复杂网络.不失一般性,本书称这种相互连接的网络为信息网络(information network).信息网络的实例包括社交网络.万维网.研究成果发表网络[22].生物网络[55].交通网络[32].公共健康系统.电网,等等.显然,信息网络随处可见,是现代信息基础设施的重要组成部分.如今,对信息网络或某些特殊类型信息网络(如社交网络和万维网)的分析

《异构信息网络挖掘: 原理和方法(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《异构信息网络挖掘: 原理和方法》—— 1.1 异构信息网络是什么

1.1 异构信息网络是什么     信息网络是现实世界的抽象,关注于对象以及对象之间的交互.事实证明,这一层次的抽象既具有表达和存储现实世界本质信息的强大能力,同时通过运用链接的信息,为从现实世界挖掘知识提供了一个有用的工具.形式上,我们如下定义一个信息网络.     不同于传统网络的定义,我们明确区分网络中的对象类型和关系类型.注意,如果类型A和类型B之间存在一个关系,记为A R B,那么,对于其逆关系R-1,自然有B R-1 A成立.通常,R和其逆R-1是不相等的,除非其链接的两个对象具有相

《异构信息网络挖掘: 原理和方法》—— 导读

前 言     当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养