IBM SPSS Modeler 与数据库集成和配置
作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型 ,并将其应用于商业活动,从而改进决策过程。 其可对企业级海量数据进行处理与建模,通过强大的数据库集成功能更可以直 接与企业已有的数据库集成进行数据挖掘。不仅避免了企业资金重复投入, 而且可以获取更好的数据挖掘性能。
比如某公司经过多年的积累,有非常庞大的数据且存储于数据库中 ,希望能使用 SPSS Modeler 在现有数据中进行数据挖掘以做出有利于本公司的决策。 那么公司首先将会面临一些疑问或者问题,包括:SPSS Modeler 如何与数据库沟通, 怎么取得数据进行建模,怎么存储建模结果,如何保证在大型数据上运算的性能,等等。
本系列文章将分三部分针对这些问题一一进行解答,其中第一部分介绍基本知识包括数据库配置及操作, 第二部分介绍数据库集成建模,第三部分介绍性能优化。此为第一部分。
安装驱动程序
SPSS Modeler 可通过数据库源节点使用 ODBC(开放数据库连接)从多种数据库中导入数据, 包括 DB2、Netezza、Oracle、Teradata、Microsoft SQL Server 等数十种数据库。 要读取或写入到数据库中,您必须为相关数据库安装驱动包并配置 ODBC 数据源, 并根据需要配置读取或写入权限。IBM SPSS Data Access Pack 包含一组用于此用途的 ODBC 驱动程序, 支持多种操作系统平台。
IBM SPSS Modeler 为典型的 C/S 架构产品,如果仅以本地(独立)模式运行 IBM SPSS Modeler ,必须在本地计算机上安装驱动程序。
如果以分布模式连接远程 IBM SPSS Modeler Server 运行 SPSS Modeler,需要在安装 SPSS Modeler Server 的计算机上安装 ODBC 驱动程序
使用下列一般步骤访问数据库中的数据:
为要使用的数据库安装 ODBC 驱动程序并配置数据源。
在数据库节点对话框中,使用表模式或 SQL 查询模式连接到数据库。
从数据库中选择表。
使用数据库节点对话框中的选项卡,可以更改使用类型和过滤数据字段。
在后面的章节中将对这些步骤进行更详细地说明。这里首先进行驱动安装与配置。
Windows 平台数据库驱动安装与数据源配置
IBM SPSS Data Access Pack 发布的 Windows 版本包括 32 位与 64 位版本,我们在这里使用 32 位做演示, 请注意在实际使用时选择合适的版本安装。
其安装过程采用典型的 step-by-step 方法,我们只需要使用默认设置一步一步安装即可。 安装完成后,打开控制面板 -> 管理工具 -> 数据源 (ODBC), 在驱动程序页面可以看到已经安装好一批相应的数据库驱动。
图 1.ODBC 驱动
我们以 DB2 为例继续后面的操作,其他数据库类似。
回到 ODBC 数据库源管理器系统 DSN 页面,点击添加按钮,选择 SPSS Inc OEM 6.0 DB2 Wire Protocol 驱动程序。
图 2.ODBC 数据源管理器 - 系统 DSN