由于目前">企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理和建模,就需要将这些存储在不同数据库之间的数据进行有效的整合,本文将介绍通过 IBM SPSS Modeler 如何对不同数据库之间的数据进行整合,然后进行建模处理。
IBM SPSS Modeler 介绍
IBM SPSS Modeler 是 IBM 在分析与预测领域解决方案的重要组成部分,它是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型, 并将其应用于商业活动,从而改进决策过程。Modeler 的界面如图 1 所示:
图 1. IBM SPSS Modeler 界面
IBM SPSS Modeler 通过节点对数据进行处理,然后将这些节点连接起来,就形成了对数据处理的一系列过程,我们将这一过程称为数据流。也可以说 IBM SPSS Modeler 是以数据流为驱动的产品,这一系列节点代表要对数据执行的操作,而节点之间的链接指示数据的流动方向。IBM SPSS Modeler 将节点分为如下几种类型:
源:此类节点可将数据导入 IBM SPSS Modeler,如数据库、IBM SPSS Analytic Server 数据源、文本文件、SPSS
Statistics 数据文件、Excel、XML 等。 记录选项:此类节点可对数据记录执行操作,如选择、排序、抽样、合并和追加等。 字段选项:此类节点可对数据字段执行操作,如过滤、导出新字段和确定给定字段的测量级别等。 图形:此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表等。 建模:此类节点可使用 IBM SPSS Modeler 中提供的建模算法,如神经网络、决策树、贝叶斯网络、聚类算法、支持向量机、和数据排序等。 输出:节点生成数据、图表和可在 IBM SPSS Modeler 中查看的模型等多种输出结果。 导出:节点生成可在外部应用程序(如 IBM SPSS Data
Collection、数据库、XML、IBM SPSS Analytic Server 数据 或 Excel)中查看的多种输出。 IBM SPSS Statistics:节点将 IBM SPSS Statistics 数据导入或导出为 SPSS Statistics 数据,以及运行 SPSS Statistics 提供的功能。
IBM SPSS SDAP 介绍
1. SDAP 的安装
IBM® SPSS® Data Access Pack(简称 SDAP)是在 Modeler 的安装盘附带的 ODBC 驱动程序,运行 setup.exe 文件以启动驱动程序安装,并选择所有相关的驱动程序即可。安装的 SDAP 必须和你使用的 Modeler Server 在同一台机器,也就是说如果你使用本地的 Modeler Server, 那么就安装在 Modeler Client 所在的机器,如果使用的 Modeler Server 和 Modeler Client 不在同一台机器,那么就需要安装在 Modeler Server 所在的机器。
图 2. SDAP 的安装
2. 创建 ODBC
这里以 Windows 7 为例,装好 SDAP 驱动后,从“开始”菜单中选择所有程序,选择管理工具,选择数据源 (ODBC),在打开 的对话框中选择系统 DSN 选项卡,然后单击添加,在打开的对话了狂选择要添加的数据库的驱动,如图 3 所示:
图 3. 选择驱动
点击完成按钮后,配置数据库的信息,对于不同的数据需要输入不同的信息,本文将以主流的 IBM DB2、Oracle 和 SQL Server 为例。如图 4 所示:
图 4. 创建 DB2 ODBC
在“ODBC DB2 Wire Protocol 驱动程序设置”对话框中需要指定如下内容:
数据源名称(指定一个 ODBC 的名字); IP 地址,指定 DB2(Oracle,SQL Server) RDBMS 所在服务器的主机名或者 IP 地址; TCP 端口 ( 对于 DB2,默认是 50000,Oracle 是 1521,SQL Server 是 1433); 数据库的名称(指定需要连接的数据库);
点击“测试连接”后,输入要连接数据库的用户名和密码,然后单击确定按钮。此时会显示“连接已建立!”的消息,说明配置成功。
对于 Oracle 数据库来说,如图 5 所示:
图 5. 创建 Oracle ODBC
对于 SQL Server 数据库如图所示:
图 6. 创建 SQL Server ODBC