《中国人工智能学会通讯》——3.2 基于网络结构信息的网络表示方法

3.2 基于网络结构信息的网络表示方法

基于网络结构信息的网络表示方法只考虑网络节点之间的链接关系。给定网络图 G=(V, E)。其中V 表示网络中的节点集合;E 是网络中的边集合网络表示学习的目的在于从网络信息中学习得到各个节点的低维表示是向量的维度。

这部分分别介绍 DeepWalk、LINE 和 GraRep三种模型。其中 DeepWalk 是以 Skip-gram 模型为基础,本质上使用了二阶的网络上下文信息;LINE模型显示地提出了网络表示方法的目标函数,考虑了一阶和二阶的上下文信息;GraRep 对 LINE 模型进行了拓展,可以对节点的任意阶上下文信息建模。

DeepWalk 模型

DeepWalk 模型首先采用随机游走 (randomwalk) 的方法产生标准的输入序列,然后使用 Skip-gram 模型对序列建模得到网络节点表示(具体算法见表 1)。随机游走首先基于均匀分布得到序列的起始点,然后从当前点的邻居节点中随机选择一点作为后续节点,依次迭代直到产生特定长度的序列。
相比基准的模型方法 (Spectral Clustering [7] 、Modularity [8] 、EdgeCluster [22] 、wvRN [23] ),DeepWalk 模型有效地解决了训练数据稀疏的问题,在训练数据较少的情况下,F 1 值上有 10% 的提高。在一些标准数据集中,仅使用 60% 的训练数据 DeepWalk 模型就可以超过使用 100% 训练数据的所有基准方法。

LINE 模型

文献 [17] 提出了一种适用于不同类别网络图结构(有向图、无向图和加权图)的网络学习模型LINE。具体上,LINE 模型从一阶相似性 (first-orderproximity) 和二阶相似性 (second-order proximity)两方面设计目标函数。基于一阶或者二阶相似性,LINE 模型可以分别学习到一种网络表示。为了同时使用这两种相似性,LINE 模型将一阶节点向量和二阶节点向量拼接起来作为最终的节点表示。

一阶相似性表示网络中两个节点之间的点对相似性,具体为节点之间边的权重(如果点对不存在边,则其一阶相似性为 0)。为了建模一阶相似性,模型首先定义点对 υ i 和 υ j 联合概率为
其中 和 分别是节点υ i 和节点υ j 的向量表示。节点υ i 和υ j 的经验联合概率为表示边 (i, j) 上的权重, 。一阶相似性模型通过最小化概率分布 的KL距离来获得网络表示。

二阶相似性模型假设如果节点间共享相似的邻居节点,那么两者就趋于相似。具体上,点对之间的二阶相似性表示两个节点在整个网络上的一阶相似性的分布相似度(如果点对没有共同的相邻节点,则二阶相似性为 0)。在这种情况下,每个节点有目标节点和其他节点的上下文两个角色。形式上,用 和 分别指 υ i 作为目标节点的表示和 υ i 作为其他节点上下文的表示。二阶相似性模型首先定义节点 υ i 和 υ j 的条件概率为
节点 υ i 和 υ j 的经验条件概率,其中 d i是节点 υ i 的出度。通过最小化概率分布与之间的 KL 距离来获得二阶相似性模型的网络表示。

一阶相似性和二阶相似性模型都采用了基于边的负采样优化方法来得到网络节点表示。实验表明LINE 模型在语言网络、社交网络和论文引用网络的数据集上均超过了 DeepWalk 模型和基于随机梯度的矩阵分解方法[24] 。

GraRep 模型

文献 [18] 指出 LINE 模型中的一阶相似性和二阶相似性分别捕捉到节点间一阶和二阶的局部信息(如图 1(a)和(b)所示),并在此基础上提出更一般化的模型 GraRep。GraRep 模型可以捕捉更高阶的网络信息(如图 1(c)和(d)所示),并对每一阶的局部信息分别建模,最后串接各阶网络表示得到最终节点表示。
GraRep 模型基于概率转移矩阵来获得网络表示。首先定义一阶概率转移矩阵 A=D -1 S,其中 S 为邻接矩阵(S ij =wei ij )、D 为度对角矩阵 (degreematrix)。所得到的A ij 是节点υ i 到υ j 的一阶转移概率。进一步,通过计算 可以得到 k 阶概率转移矩阵。GraRep 模型优化目标在于最大化 (c, w) 对的出现概率,同时最小化随机产生的 (c', w) 出现的概率,其中 w 为目标词、c 是 w 的上下文词、c' 是随机得到的上下文词。采用负采样的方法建模 k 阶信息,考虑 (c, w) 的出现概率,最大化的目标函数为
其中 表示从 w 到 c 的 k 步转移概率;σ(·)是 sigmoid 函数;λ 是负例的个数;上下文词c出现的概率为 根据文献[25],优化上述式子本质上等价于将矩阵Y分解成W和C,其中 W 的每一行代表节点的表示,而 C 中的每一列表示节点作为上下文的表示。

GraRep 模型采用 SVD 矩阵分解的方法来得到网络节点的表示。相比 DeepWalk 和 LINE 模型,GraRep 模型考虑了更高阶的上下文信息,在网络结构数据上得到了更好的效果。值得一提的是,虽然在文献 [18] 中,GraRep 模型使用了复杂度较高的 SVD 矩阵分解的方法,但它也可以采用随机梯度下降的优化方法,因此该模型同样适用于大规模的网络结构。

时间: 2024-10-02 19:34:48

《中国人工智能学会通讯》——3.2 基于网络结构信息的网络表示方法的相关文章

中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作

5 相关工作 数据修复旨在发现和修正数据库中错误的数据.在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1].这些方法大致可以分为如下三类. (1)传统的方法先依赖各种约束条件,包括FDs[5,7].CFDs[6].完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突):然后用文献[2-4]中的方法修正所有的错误数据,从而解决所有的冲突.对一般的文本数据库,这一类方法中的大部分工作都是使用FD/CFDs进行修复,因为FD/CFD

《中国人工智能学会通讯》——11.55 面向移动商务的数据挖掘方法及应用研究

11.55 面向移动商务的数据挖掘方法及应用研究 近年来,移动互联网.无线传感器网络相关技术的快速发展,以及智能移动设备的全面普及,极大地加快了移动信息产业向社会经济各个层面.大众日常生活的渗透.事实上,基于移动设备的应用服务已经成为用户获取信息.休闲娱乐的主要方式.种类繁多的移动应用和服务覆盖了诸如生活娱乐.在线社交.导航定位等各个功能层面,从而满足了移动用户在日常生活中各式各样的需求.这些移动应用和服务也产生了海量的商务历史数据,为研究者深入探索移动商务环境下的潜在价值.开发全新的移动商务应

中国人工智能学会通讯——意识科学研究进展 1.6 脑神经网络信息大规模获取和脑计划

1.6 脑神经网络信息大规模获取和脑计划 进入 21 世纪以来,认知科学得到更为 充分的关注.在全球范围内启动了多个脑 科学的重大科研计划.2013 年,美国启动 脑计划:2014 年,欧盟也实施了人脑计划: 此外,日本.中国等国相继或正在进行国 家级的脑科研项目. 美国的脑计划称为 The Brain Research through Advancing Innovative Neurotechnologies ( 简称 BRAIN),它由美国国防部 (DARPA). 国家卫生研究院 (NIH

《中国人工智能学会通讯》——3.3 基于网络结构和节点信息的网络表 示方法

3.3 基于网络结构和节点信息的网络表 示方法 除了节点之间的网络结构信息,网络节点本身往往存在丰富的信息.比如,在维基百科中的文章连接形成的信息网络中,每篇文章作为一个节点,节点包含了丰富的文本信息:在社交网络中(如图2 所示),每个用户节点包含用户产生的文本内容及用户属性(如性别.学校.地点.公司等). 这部分介绍两种同时考虑网络结构和节点信息的模型:TADW 和 Multi-facetedRepresentations.Multi-faceted Representations模型考虑与节

《中国人工智能学会通讯》——第3章 3.1基于深度学习的网络表示研究进展

第3章 3.1基于深度学习的网络表示研究进展 网络结构在现实世界中无处不在(如航线网络.通信网络.论文引用网络.世界万维网和社交网络等),在此基础之上的应用和研究问题受到了学术界和工业界的广泛关注,这些研究问题包括链接预测[1] .网络节点分类 [2-3] .推荐 [4]和异常检测[5]等.随着计算机信息技术的高速发展和迅速普及,现实世界中的网络结构,尤其是以 Twitter.Facebook和 Weibo 为代表的大规模社交网络进入了亿级节点时代.除网络结构之外,网络节点自身也会产生大量的相关

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人