用KNIME构建社会网络

社会网络分析(Social Network Analysis)是大数据分析的主要应用方向。社会网络分析关注的是关系,这种关系可以是人与人之间的关系,也可以是组织之间或是国家之间的关系,甚至可以是“啤酒”与“尿布”等物与物之间的关系。(注:“啤酒”与“尿布”的故事是一个数据挖掘的经典案例,经过数据挖掘与分析,沃尔玛超市发现美国奶爸们买尿布的时候常常也会顺带着买啤酒,从而带来营销启示。)

沈浩老师一直致力于社会网络分析的研究,今天,主要介绍的是如何用数据挖掘软件KNIME来构建社会网络。软件作为工具,背后是理论的指导,所以,我们先来简要说明一下关于社会网络的基本理论。

要研究网络,先要明白什么是网络。网络由节点(node)以及节点之间的连线(也叫边,edge)构成。一个节点代表着一个行动者,或者说是一个实体,可以是一个人、一个组织、一个国家、一个商品、一个学科,等等。边是网络中两点之间的联系。在社会网络分析中,正是边体现出了彼此之间的关系。边分为有向边和无向边,网络图从而也分为有向图和无向图。

下面以案例的形式介绍用KNIME构建社会网络图的详细步骤:

步骤1:建立一个空网络并读取关系数据

这是本例中所用的关系数据,Col0和Col1两列是node,Row ID是edge,利用Object Inserter,我们将数据插入到网络中。在Object Inserter中还可以选择对边的无向或有向以及边的权重进行设置,本例中我们设置边为无向边,不设置边的权重。

步骤2:读取节点特征数据,向网络中插入特征数据

这是本例中使用的节点特征数据,我们能够看到。这里的特征,指的是节点所代表的人的信息,分别是年龄、性别、收入和人生阶段。分别将这4个特征插入到网络中。也可以插入满足研究需要的节点特征,本例中将参与人数(也就是节点数)也插入其中。

细心的读者可能会发现,在“人生阶段(phase oflife)”中,有一些标了“?”的缺失值,对于这些缺失值,可以用决策树来进行预测,然后将预测值填入使数据完整。

可以看到,模型的准确率是83.636%。

步骤3:生成可视化网络图

将预测值插入网络中,用Network Viewer节点可视化呈现网络图。在该节点中,可以设置网络布局的算法、颜色、形状等等。

以节点名称(人名)为标签所呈现的网络图

以节点特征(这里是年龄)为标签所呈现的网络图

值得注意的一点是,Network Viewer并不支持处理超图(注:一般来讲,网络图中的一条边最多只能关联2个节点,但超图hypergraph中,它的超边hyperedge的关联节点可以大于2)和空边(边的关联节点小于1),所以如果网络中有这样的超边或空边,可以对其先进行过滤。有时,根据研究者的需要,也可以对网络的节点或边做一些符合需要的过滤。

叶子节点(leaf)指的是没有子节点的节点。环(loop)指的是边的关联节点数为1.

过滤后以节点特征(这里是年龄)为标签所呈现的网络图

本文作者:沈浩

来源:51CTO

时间: 2024-09-28 17:43:29

用KNIME构建社会网络的相关文章

方军:移动社交的文化根源

社会化,是把人视为网络的节点;移动互联网,则是人真正地变 成了社交网络的节点.文/方军在移动互联网的大势,社会化已渐成为产品的基本条件.移动互联网的特点有二,一是 所谓移动优先(mobile first),也就是把手机视为首要设备,以它的新性能与特殊限制作为产品设计的 前提,另一就是所谓社会化(social),也就是利用用户之间的关系构建人与人的社会网络(social network),从而促进产品扩散.刺激用户交流.协助用户发现.以及构建竞争壁垒.社会化的人性 根源,是人的生存状态,每个人都生

企业非市场策略的运用:以中粮和双汇为例

在中国现实的市场环境中,企业应高度重视运用非市场策略,通过获得非市场环境中的利益相关者的支持和理解,从而提升企业的影响力,获取更大.更多的发展机会. 文/余吉安 企业的发展不仅受到竞争对手.顾客等市场力量的影响,还会受到其他利益相关者如政府.公众.媒体等的影响.政府.社会.公众等这些非市场因素对企业的成败有显著的影响.非市场策略就是企业与非市场环境中的利益相关者建立关系的策略.在中国这样的"大政府.小社会"的市场结构中,企业均重视运用非市场策略,通过获得非市场环境中的利益相关者的支持和

通过 OAuth 访问社会网络 Web 站点,第 1 部分

构建支持 OAuth 的桌面 Twitter 客户端 OAuth 是一种开放的协议,支持用户在不同的 Web 站点之间共享其受保护的资源,而无需担心泄漏的风险.OAuth 是混搭当今的社会网络 Web 站点(比如 Twitter)的理想选择.本系列文章的第一部分将介绍 OAuth,以及开发支持 OAuth 的桌面 Twitter 客户端的示例.本系列文章的第二部分将演示如何开发支持 OAuth 的 Web Twitter 客户端.支持 OAuth 的 Web Twitter 客户端将被迁移到 G

如何用KNIME进行情感分析 | 下

如何能够让机器"读懂"人的情感?情感分析提供了解决的一个思路.这也使得它成为自然语言分析(Natural Language Processing)中最令人神往的山对面的"风景". 什么是情感分类(sentiment classification) 简单说,就是对于一句或一段话,判断说话者的情感,是正向(积极)的,还是负向(消极)的.这种情感分类任务可以看作一个二分类问题. 完成情感分类的核心问题 决定分类准确率的关键在于特征的选取与语料的质量.其中特征问题解决的是:

企业互联网时代下的大数据构建之道

文章讲的是企业互联网时代下的大数据构建之道,"现在企业互联网化正在迅速渗透到企业以及所处的产业链和生态圈中,借助互联网,企业可以更容易与前端供应商.服务商包括后端客户.最终客户建立密切的联系.在此过程中新的业务模式包括供应链优化.智能制造.产业链协同.电子商务等正在不断兴起并迅速发展." 用友网络科技股份有限公司助理总裁,兼集团iUAP中心副总经理谢东在接受记者采访时说道. 企业互联网化 大数据成为核心资产 企业互联网化已经成为一种趋势,它正在改变着企业的传统的业务模式,使得企业内部运

社会网络不仅是“网络” 更是“社会”

近几年,现代社会中"网络科学"的独特魅力越来越引起人们的注意.对于"网络科学"的概念稍加厘清,就不难发现"网络科学"不仅仅体现在互联网及全球通信的快速成长上,人体神经元之间的通信.疾病在世界范围内的爆发轨迹,乃至新闻与信息在全世界范围内传播的惊人速度与强度,这些无不属于"网络科学"的研究范畴. 对六度分隔的研究始于二十世纪六十年代.1967年,哈佛大学心理学教授米尔格拉姆发起了一个有趣的"传递信件"实验.一

使用 Eclipse 在 Google App Engine 上创建 mashup,第 2 部分: 构建 Ajax mashup

使用社会网络可以更轻松地获取并聚合数据,从而创建富有革新精神的新 Web 应用程序.但是,仍然必须处理创建可伸缩 Web 应用程序的所有常见问题.现在,使用 Google App Engine (GAE) 也可以简化工作.使用 GAE,可以不必考虑管理应用服务器池的所有事务,而是集中精力创建优秀的 mashup.本文是共分三部分的系列文章 "使用 Eclipse 在 Google App Engine 上创建 mashup" 的第二部分,在本文中,将利用并增强在第 1 部分中构建的应用

利用TMG 2010构建企业员工VPN连接平台

在之前我为大家介绍了基于ISA 2006 构建企业员工VPN连接平台的内容,今天呢再把基于TMG 2010如何搭建VPN平台给大家介绍一下,大体的过程是一样的,只是有一些步骤上由于Windows Server 2008与Windows Server 2003的区别,所以今天呢我也完整地介绍一下在TMG 2010配置PPTP VPN.基于证书的L2TP IPSEC VPN与基于密钥的L2TP IPSEC VPN的区别,以便大家在配置时区分对比,同时希望能给大家的工作带来一些方便.   好了下边我们

使用 Oracle XQuery 查询、构建和转换 XML

oracle|xml|转换 在 Oracle 数据库 10g 第 2 版中,Oracle 引入了一个与该数据库集成的全功能自带 XQuery 引擎,该引擎可用于完成与开发支持 XML 的应用程序相关的各种任务.XQuery 是一种用于处理 XML 数据模型的查询语言,它实际上可操作任何类型的可用 XML 表达的数据.尽管 Oracle XQuery 实施使您可以使用数据库数据和外部数据源,但在处理数据库中存储的结构化数据方面,Oracle XML DB 通常可以显著提高性能. 本文提供的示例不仅