《中国人工智能学会通讯》——3.12 用户层

3.12 用户层

从用户层看,社会媒体情感是用户情感观点的形成(opinion forming)过程。一些研究建模了社区中用户观点伴随着周围用户交流的演变,分别针对观点的传播过程,即一个观点如何从一个用户扩散到另一个用户,以及观点的形成过程进行研究。前者主要着眼于用户的社会影响力的研究,后者则关注通过与已持有某观点的用户交流所形成的观点。文献 [21-22] 分别在 LiveJournal 和 Facebook上的实验,证实了用户的观点或情绪受其社交网络中周围用户的影响。

传播模型方面,Suchecki 等[23]在构建的无尺度网络(scale-free network)、小世界无尺度网络和随机网络上研究投票正、负观点的传播。文献 [24] 将连续观点模型 Sznajd(用连续数值表示观点)扩展到复杂网络上,假设两个持有相同观点的关联用户会把观点传播给他们所有的邻居。文献 [25] 发现在 Sznajd 模型中,观点传播个体的聚集系数(clustering coefficient)会导致观点的完全统一。Deffuant 模型中从网络中每次随机选择两个用户,并根据他们连续观点的差值,进行观点变化[26] 。而 Hegselmann-Krause 模型假设网络中的用户观点值会转变为周围持有相似观点用户的均值[27] 。Fortunato 等 [28]将 Hegselmann-Krause 模型扩展为多维的观点向量。然而,Bindel 等[29]指出传统模型,包括 DeGroot 模型[30]往往最终会使得互连用户的观点(用数值表示)达到一个共同的值,而实际的经验告诉我们,即使联系紧密的用户,也不一定会最终达到同样的观点数值。因此,提出带有个人固有信念的博弈模型,证明了纳什平衡后关联用户观点的多样性,以及增加社会网络连边会使平衡后的观点差异程度降低。

观点传播的各种理论模型丰富了在线社会媒体用户观点传播的建模手段。但以上工作,一是基于理想的构造的网络,而非真实的传播网络;二是每个用户节点都属于激活状态,只是观点的极性或强弱有所不同。 在研究信息传播的激活变化时,基于有向图的传播的模型——线性阈值和独立级联模型[31] ,刻画了用户激活状态的变化。对于传播的动因,一个有争议的观点是“影响者推动”假设,即有影响力的个体促使了观点、行为、创新和产品在社会中的散播[32] 。 尽管这是一个广泛接受的观点,但 Aral 等[33]将用户影响划分为影响力(influence)和易感性(susceptiblity)两个属性维度,通过对Facebook 的数据研究发现,在线社交网络中的传播行为是由在局部网络中用户的影响力、易感性,以及他们自发传播的似然所共同决定的。在此基础上,假设用户具有隐式影响力和易感性的分布式表达,通过观测历史传播轨迹的似然和机器学习方法,估计出新浪微博用户影响力和易感性的隐式表达[34] ,如图 3 所示,表达的各个维度具有一定不相关性和区分度(浅色块)。该方法改变了传统模型主要基于用户对的方式,即对 n 个用户间的传播关系设定大小为 n 2 的传播参数建模,降低了模型参数,可以有效缓解机器学习的过拟合问题。尽管如此,这些建模激活状态的传播模型,实际又无法刻画激活用户的观点变化情况。

时间: 2024-09-28 09:19:19

《中国人工智能学会通讯》——3.12 用户层的相关文章

《中国人工智能学会通讯》——12.59 基于模糊性的半监督学习

12.59 基于模糊性的半监督学习 假设 A 是一个大数据集,并且 A 中的大部分样例没有类标:B 是 A 中一小部分样例组成的集合,并且 B 中的每个样例都有类标.利用数据集 B 我们可以训练得到分类器,但我们不能保证这样的分类器对 A-B 中的样例有较好的预测结果.基于对数据集 A-B 中的每个样例的预测结果,我们想从 A-B 中挑选出一些样例(连同对这些样例的预测结果)加入到数据集 B 中.再次利用 B 进行训练得到的分类器对于 A-B 中样例的预测精度将会有所提升.此刻需要明确的关键问题

《中国人工智能学会通讯》——12.51 现有知识图谱资源

12.51 现有知识图谱资源 知识图谱经历了由人工和群体智慧构建,到面向互联网利用机器学习和信息抽取技术自动获取的过程.根据信息来源和获取方式的不同,目前的知识图谱分为以下几类. 依靠人工构建的知识资源 早期知识资源建立是通过人工添加和群体智能合作编辑得到,如英文 Wordnet [1] 和 Cyc 项目[2] ,以及中文的Hownet.Cyc 是一个通用的世界知识库,始建于 1984 年,其目的是将上百万条知识编码为机器可处理形式,并在此基础上实现知识推理等人工智能相关任务.Cyc 包含了 5

《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

12.33 众包知识库补全方法概览 本章介绍众包知识库补全的方法概览,如图 1所示.其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库.Web 结构化数据等,提取知识数据,并将不同数据源的知识数据融合起来,以此补全知识库:其二,在融合的过程中有效地利用众包,通过众包模型细化出具体可供众包完成的任务,利用众包优化算法进行质量和成本的控制,以选择出最优的任务发布到众包平台,如美国亚马逊公司的 Mechanical Turk ( 简称 MTurk) 1 . 知识抽取:提出利用多类数据源进

《中国人工智能学会通讯》——12.7 序列模式挖掘近似算法

12.7 序列模式挖掘近似算法 数据中通常蕴含大量的频繁模式.确定性算法能够挖掘出所有频繁的模式,具有最高的准确性,但通常会花费大量计算时间,并且消耗大量内存.而序列模式挖掘近似算法是适应大数据的另一种方式.但是,近似算法所挖掘的结果中却存在着误差.因此,错误误差的估计通常是近似算法重点关注的对象.其中,Manku 等人[41]提出的 LCA(LowestCommon Ancestors)算法是一个代表性的从流数据中挖掘频繁模式的近似算法.在 LCA 算法中,增量数据以大小为 B 的块更新.对于

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述 知识图谱(Knowledge Graph, KG)旨在描述客观世界的概念.实体.事件及其之间的关系.其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人.动物.组织机构等:实体是客观世界中具体事物,如篮球运动员姚明.互联网公司腾讯等:事件是客观世界的活动,如地震.买卖行为等.关系描述概念.实体.事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等.谷歌于 2012 年 5月

《中国人工智能学会通讯》——12.46 分类型数据流聚类算法

12.46 分类型数据流聚类算法 在许多真实的应用中经常产生连续到达的数据,诸如网络流量监控.股票市场.信用卡欺诈检测.网站点击流和超市的客户交易等.由于到达的数据随着时间变化,所以数据的分布也将随着时间发生变化.比如在社会网络分析中,一些人可能逐渐从一个主题转换到另一个主题,而一些人可能很快改变他们的兴趣,利用聚类分析可以发现不同群体在不同时间段行为模式.针对数值型数据,数据流的聚类问题已经做了大量的研究[21-24] . 针对分类型数据,为挖掘动态Web 站点用户日志的演化,Nasraoui

《中国人工智能学会通讯》——12.48 混合型数据聚类算法

12.48 混合型数据聚类算法 混合型数据在本文是指分类型数据和数值型数据并存的一类数据,由于两类数据描述的差异性,使得混合型数据聚类算法中类个数的确定变得越来越困难.针对分类型数据,Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法.该方法根据增量熵的变化来指导凝聚层次聚类过程,根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数.Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法.该方法给出了基于事务

《中国人工智能学会通讯》——12.55 结束语

12.55 结束语 知识图谱技术是人工智能知识表示和知识库在互联网环境下的大规模应用,显示出知识在智能系统中重要性,是实现智能系统的基础知识资源.纵观知识图谱研究发展的相关研究现状,以下研究将成为未来知识图谱必须应对的挑战:① 研究知识表示和获取的新理论和方法,使知识既具有显式的语义定义,又便于大数据下的知识计算:② 随着信息技术从信息服务向知识服务的转变,研究建立知识图谱构建的平台,以服务不同的行业和应用:③ 知识图谱虽然已经在语义搜索和知识问答等应用中展示出一定的威力,但是基于知识图谱的应用

《中国人工智能学会通讯》——12.32 基于众包的知识库补全研究

12.32 基于众包的知识库补全研究 近些年来,大规模知识库构建逐渐成为学术界和工业界广泛关注的热点.一批大规模知识库得以构建,并得到了迅猛的发展,这其中包括学术界构建的知识库 YAGO [1] .NELL [2] .DBpedia [3]和 DeepDive [4] ,工业界开发的 Freebase [5] .谷歌公 司 的 Knowledge Graph [6] .Wolfram Alpha [7] , 以及特定领域的知识库 , 如医疗领域的 UMLS [8] .这些知识库包含了数以亿计的真

《中国人工智能学会通讯》——12.54 知识图谱应用

12.54 知识图谱应用 Google 最初提出知识图谱是为了增强搜索结果,改善用户搜索体验,知识图谱的应用远不止这些,基于知识图谱的服务和应用是当前的一大研究热点.按照应用方式可以分为语义搜索.知识问答,以及基于知识的大数据分析与决策等. 语义搜索:利用知识图谱所具有的良好定义的结构形式,以有向图的方式提供满足用户需求的结构化语义内容,主要包括 RDF 和 OWL 的语义搜索引擎和基于链接数据的搜索等[35] .语义搜索利用建立大规模知识库对用户搜索关键词和文档内容进行语义标注,改善搜索结果[