社交">网络分析(SNA)是 Modeler 15 增加的一个新功能。SNA 映射和度量个人、组和其它实体(定义为节点)之间的关系。典型应用包括客户流失预警,病毒式营销等,也可以与传统数据挖掘模型结合使用以提高后者的性能。本文将介绍 Modeler 中两种 SNA 模块的算法原理 , 并通过实例讲解,使读者了解 SNA 的使用方法。
背景知识:社交网络分析、数据挖掘、IBM SPSS Modeler
社交网络分析是人、组织、计算机或者其他信息或知识处理实体之间的关系和流动信息的映射和测量。图 1 是社交网络的一个示意图,其中的节点表示人、组织、计算机或者其他信息或知识处理实体;连线表示节点之间的关系或信息流动。信息流动的方式有很多,比如邮件,电话,短信,博客,等等。假设 A 经常与 B 和 C 通电话,通过分析 A 的电话 ID 记录,可以构筑出图 1 中的简单社交网络。从此图中我们可以看出 A, B, C, 三人 中,A 具有较强的影响力。如果 A 获得了正面或者负面的消息,这消息会很快传递给 B 和 C。而 B 与 C 之间的影响力是间接的,只能通过 A 来传播。
图 1. 社交网络示意图
随着节点和连线的增加,社交网络的复杂程度迅速提升。图 2 展示了一个较为典型的社交网络。大型和超大型的社交网络的处理是手工分析方式无法完成的。在过去的二十年中,社交网络分析领域的快速发展,很大程度得益于计算机计算能力的提升和各种数据挖掘方法的发展。
图 2. 一个典型的社交网络
数据挖掘 (data mining) 是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业角度去定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
图 3. 数据挖掘
被誉为第一数据挖掘工具的 IBM SPSS Modeler( 原名 Clementine) 是 IBM SPSS 的核心挖掘产品,它拥有直观的操作界面,自动化的数据准备,和成熟的预测分析模型。使用它,企业可以将数据分析和建模技术与特定的商业问题结合起来,找出其他传统数据挖掘工具可能找不出的答案。
图 4. IBM SPSS Modeler 的操作界面