简介
IBM SPSS Modeler Entity Analytics (EA) 是在 IBM SPSS Modeler 14.2 预测分析的基础上添加到 IBM SPSS Modeler 15.0 的全新功能。Entity Analytics 和传统 的 Modeler 相比,对数据预测有着全新的维度。IBM SPSS Modeler 预测的重点在于根据过 去的数据预测未来的行为。而 Entity Analytics 重点在于通过解析已有的数据,在不同的 已有数据源中,解析自身的身份冲突,从而来提高当前数据的连贯性和一致性。
功能 介绍
EA 基本配置
如果我们有下面的两条数据,来自美国某银行的数据 A,和 来自另一银行的数据 B:
这第三条数据虽然只简单地包括了姓名,电话,驾驶证号码,信用卡号码这么 4 个部分,但是它强而有效的把数据 A 和数据 B 联系到了一起。数据 A 和数据 C 的姓名都 是 JOHN SMITH, 驾驶证号码都是 0001133107; 数据 B 和数据 C 的电话号码都是 555- 1212,信用卡号码都是 102291328. 因此,我们可以推断,实际上数据 A 和数据 B 其实描述的是同一个人。如果将来我们发现数据 A 里的 john smith 有诈骗嫌疑,我们就可 以迅速的推断,他也可能在花旗银行和摩根银行实施同样的行为。这早期的推断会对后期的 预防有非常重要的影响。
如果只有这样简单的一两条数据,我们可以随意的眼观就发 现数据之间的相关性。但是当你的数据成千上万,当你的数据来自几百种不同的数据来源, 当你的数据里面夹在了恶意的假数据时,人力的检测就会微不足道至完全没有用武之地。而 使用我们 IBM SPSS Modeler 15 的 Entity Analytics 新功能,我们用不同的输入节点把来 自各个数据源的数据收集到一起,然后通过 Entity Analytics 的输出接点全部插入到我们 Entity Analytics 的专属数据库中。在每次有了新数据来源的时候,我们通过 Entity Analytics 的处理节点把它和所有数据库里的已知数据进行不同设置的对比,从而判定他们 是不是有相关关系,甚至是推断有怎样的相关关系。除此以外, Entity analytics 还可以 帮助用户把信息进行有效的合并。比如之前我的数据,在合并后就会有如下这些数据:
这样,我们对用户 Jon Smith 的资料掌握就更全面了,全面的资料库会对后期的营销策略等都产生强大的积极 影响。
关于产品的详细资料我们可以通过帮助文档获取,这里就不多提了。今天,我 们重点想和大家讲讲它在商业分析中具体的应用案例。
首先来介绍一下我们的数据源 ,这个数据包括 850 行,28 列,是由我们根据美国信用卡机构的数据组件模式自行创造的 数据。在这个数据里,有很小一部分的人可以通过传统匹配来进行识别。在软件设置为传统 匹配的模式下,被判定为同一个人的数据会自动标示成同一个 EA-ID。
简单的数据预 览截屏如下:
图 1. 数据预览截屏