本文将详细介绍如何在集群环境下部署和配置 IBM® SPSS® Collaboration and Deployment Services。IBM® SPSS® Collaboration and Deployment Services Repository 不仅可以在单机环境上部署,而且可以在集群的应用服务器上部署,在集群环境下,每一个应用服务器上部署了同样的应用程序,通过负载均衡器来访问仓储库。
图 1 是分布式环境的体系结构,包括应用服务器、仓储库、负载均衡器。逻辑上,分布式环境的体系结构包括单元、节点等基本概念。每个单元是单一管理域中的一组节点,一个单元包含一个节点或者多个节点,每个节点可以有多个服务器,但是每个服务器的配置文件是单独存储和维护的。在分布式环境中,每个单元中的多个节点被统一管理,而且它们的配置文件被中心化到单元主配置文件中。配置管理器线程负责管理这些集中配置文件,并且将任何配置变化同步到每个节点上。节点是服务器线程的逻辑组,每台机器上只能有一个节点,通过节点代理器同配置管理器通信。在 WebSphere ND 环境中,WAS plugin 起到负载均衡的作用,在 plugin-cfg 文件中可以定义每个服务器的权重,根据权重值,plugin 决定将一个请求定向到哪个服务器。
图 1. 集群环境的架构
通过集群可以实现服务更多客户,提高吞吐量,通过负载均衡,使资源得以有效利用,如果某一节点发生故障,不影响客户业务访问,具有良好的故障恢复和补偿机制。
搭建 IBM SPSS Collaboration and Deployment Services 集群环境
在非集群环境中部署 IBM® SPSS® Collaboration and Deployment Services Repository 非常简单,但是有些大型企业,为实现大数据交换,那么采用集群环境,是一个不错的选择。本文这一节就详细介绍如何在集群环境下部署和配置 IBM® SPSS® Collaboration and Deployment Services。
IBM SPSS Collaboration and Deployment Services 的安装总体来讲分两个部分:第一是用 IBM Installation Manager 来从数据源自动下载并配置安装文件到本地的文件系统。第二是用 IBM SPSS Collaboration and Deployment Services Configuration Tool 来将 Collaboration and Deployment Services 部署到应用服务器和数据库中。
安装前的准备
安装 IBM SPSS Collaboration and Deployment Services 之前需要做一些准备工作,比如安装、配置 application server,设置 Java 环境,创建数据库。
安装 IBM WebSphere 并创建集群 profile
支持集群环境的 application server 有许多,本文以 WebSphere Network Deployment 版本为例进行说明。在安装集群环境前,必须确定使用集群的规模,即 Node 数量。本文以最少的两个节点为例进行讲解,对于两个以上的节点的安装,其方法也是一样的。
首先,我们必须在所有集群节点上安装 WebSphere,安装方法可以参考 developworks 上的其他文章。其次,需要创建 WebSphere 的 profile,包括一个 manager profile 和两个 node profile。用户可以使用 WebSphere 自带的 WebSphere Customization Toolbox 工具以 GUI 的方式创建 profile,也可以使用下面的脚本创建并启动 profile。打开 windows 的命令行界面,进入到 WebSphere 根目录下的 bin 目录:
清单 1. 进入 WebSphere 根目录下的 bin 目录代码
cd C:\IBM\WebSphere\AppServer\bin
通过 manageprofiles 命令,以 C:\IBM\WebSphere\AppServer\profileTemplates\management 为模板,创建名称为 Dmgr01 的 profile,并将其放置于 C:\WASProfile\Dmgr01 位置下:
清单 2. 创建 WebSphere Manager Profile 的代码
manageprofiles.bat -create –templatePath C:\IBM\WebSphere\AppServer\profileTemplates\management -profileName Dmgr01 -profilePath C:\WASProfile\Dmgr01
进入刚才创建的 profile 的 bin 目录,通过 startManager.bat 脚本启动它:
清单 3. 启动 WebSphere Manager Profile 的代码
cd C:\WASProfile\Dmgr01\binstartManager.bat
用下面的脚本在两台机器上创建 node profile,并将它们加入到 manager profile 的管理之中:
清单 4. 创建 WebSphere Node Profile 并启动的代码
cd C:\IBM\WebSphere\AppServer\binmanageprofiles -create -templatePath C:\IBM\WebSphere\AppServer \profileTemplates\managed-profileName Custom01 -profilePath C:\WASProfile\Custom01cd C:\WASProfile \Custom01\binaddNode.bat <
DMGRHOST>
其中<DMGRHost>需要替换为 manager profile 所在系统的主机名或 IP 地址。另外,需要安装 WebSphere HTTP Server 作为 load balancer。读者可以参考 IBM Developworks 上关于 WebSphere 的相关文章。
为了将 IBM SPSS CADS 部署在 WebSphere 的集群环境上。首先,我们需要通过 WebSphere 的管理界面创建一个集群并进行一些配置。使用 http://<Dmgr_system_ip>:9060/ibm/console 进入 WebSphere 的配置管理界面。在左侧选择列表中选择 Clusters->WebSphere application server clusters。
图 2. Websphere 控制台 servers 列表
此时,从右侧界面中可以看出此时还没有一个 cluster,我们点击 New 按钮新建一个 cluster。WebSphere 会唤起一个创建 cluster 的向导,指导我们输入 cluster 名称,并添加集群子节点。
图 3. 创建一个新的集群名
图 4. 创建集群成员
将需要的子节点全部加入到集群中后,WebSphere 会给出一个总结界面,确认无误后,点击 Finish 按钮完成集群的创建。
图 5. 完成集群创建
配置 Java 环境
JDK 的制造商是由 Application Server 决定的,如 WebSphere application server 就需要使用 IBM 公司的 JDK。JDK、JRE 使用 1.6 的版本。设置 JAVA_HOME 变量,并在 Path 中添加%JAVA_HOME%\bin。
设置好 Java 环境变量后,在 command 窗口内输入 java –version 检查 Java 环境是否设置正确。
创建数据库
IBM SPSS CADS 支持多种主流数据库,如 DB2、SQL Server、Oracle 等。本文以 DB2 9.5 为例进行如何创建数据库。
默认创建的数据库的参数是不够的,用户必须设置诸如 UTF-8、缓冲池
大小、临时页表大小等参数。为了使用方便,读者可以将下面的脚本复制到一个文件并保存在计算机
磁盘上,,如保存于 c:\myScprit.sql。此脚本会创建数据库名称是 SPSSCDS。
清单 5. 创建 CADS 所需数据库的 SQL 代码
CREATE DATABASE SPSSCDS ON C:\DB2\CDS USING CODESET UTF-8 TERRITORY US COLLATE USING SYSTEM;CONNECT TO SPSSCDS;CREATE Bufferpool CDS8K IMMEDIATE SIZE 250 AUTOMATIC PAGESIZE 8 K;CREATE REGULAR TABLESPACE CDS8K PAGESIZE 8 K MANAGED BY AUTOMATIC STORAGE EXTENTSIZE 8OVERHEAD 10.5 PREFETCHSIZE 8 TRANSFERRATE 0.14 BUFFERPOOL CDS8K DROPPED TABLE RECOVERY ON;COMMENT ON TABLESPACE CDS8K IS '';CREATE Bufferpool CDSTEMP IMMEDIATE SIZE 250 PAGESIZE 32 K;CREATE SYSTEM TEMPORARY TABLESPACE CDSTEMP PAGESIZE 32 K MANAGED BY AUTOMATIC STORAGEEXTENTSIZE 16 OVERHEAD 10.5 PREFETCHSIZE 16 TRANSFERRATE 0.14 BUFFERPOOL "CDSTEMP";COMMENT ON TABLESPACE CDSTEMP IS '';CONNECT RESET; 然后点击
开始按钮选择程序运行 DB2-DB2COPY1(default)-Command Line Tools-Command Window。此时就开启了 DB2 命令行窗口。 接着键入如下命令来创建数据库:
清单 6. 创建数据库的代码
db2 -tvf c:\myScript.sql 最后需要给数据库授权,仍然从开始按钮的程序处选择,DB2-DB2COPY1(default)-General Administration Tools-Control Center 命令,右键选择刚刚创建的数据库选择 'Authorities...'命令,添加 'DB2ADMIN' 用户,并赋予全部权限。 最后,关闭并退出 DB2 Task Center,此时数据库创建完成。
安装 IBM SPSS CADS
CADS5 与早期的 CADS 相比,在安装步骤上它利用 IBM Install Manager,通过 repository 进行安装。
IBM SPSS Collaboration and Deployment Services 的安装总体来讲分两个部分:第一是用 IBM Installation Manager 来从数据源自动下载并配置安装文件到本地的文件系统。第二是用 IBM SPSS Collaboration and Deployment Services Configuration Tool 来将 Collaboration and Deployment Services 部署到应用服务器和数据库中。
如果开始 C&DS 安装,首先需要确认 IBM Installation Manager1.6 以上的版本已经安装到用户的操作系统,并且 IBM Installation Manager 的数据源已经配置正确。如果 C&DS 的安装介质检测到 IBM Installation Manager 没有安装,那么它会自动开始 Installation Manager 的安装。如果 C&DS 的安装介质检测到 Installation Manager 的版本过低,那么它会自动对其进行升级到 1.5. 以 Windows 为例,详细的安装步骤如下所示:
以
合适的用户登陆到操作系统,并运行 Installation Manager。 在命令行模式,可以运行
清单 7. 启动 IBM Installation Manager 命令行界面的代码
<IBM Installation Manager home>/eclipse/IBMIM/tools/imcl –c 在界面模式,可以运行
清单 8. 启动 IBM Installation Manager 图形界面的代码
<IBM Installation Manager home>/eclipse/IBMIM.exe 在 Installation Manager 的菜单栏,点击 File->Preferences,配置安装 IBM SPSS Collaboration and Deployment Services 所需要的正确的数据源。
图 6. 添加 IBM SPSS Collaboration and Deployment Services repository 源
当然,您可以采用文件系统、网络、HTTP 等方式指定路径。接下来回到 Installation Manager 的主界面,点击 Install 按钮。之后选择 IBM SPSS Collaboration and Deployment Services version 5.0 进行安装。
图 7. 选择安装产品
点击 Next 按钮,进行下一步。 阅读并接受 license agreement。点击 Next 按钮。 在此页面可以设置 IBM SPSS Collaboration and Deployment Services 的安装路径。在此我们采用默认路径进行安装。 IBM SPSS Collaboration and Deployment Services 的安装需要一个新的 package group。 IBM SPSS Collaboration and Deployment Services 的安装需要 5G 左右的硬盘空间。 如果是第一次启动 Installation Manager,那么还需要设置 Installation Manager 的共享目录,用来临时存储从数据源下载下来的文件。 在此页面可以配置需要安装的组件。默认组件既是 IBM SPSS Collaboration and Deployment Services version 5.0。 下一个页面显示了安装相关的信息,点击 Install 按钮,开始安装。 安装过程开始,如下图。
图 8. CADS 安装过程
安装结束,如下图。IBM SPSS Collaboration and Deployment Services version 5.0 将通过 IBM Installation Manager 下载并安装到用户本地的文件系统。如果在此过程中发现问题,可以参考 SPSS Collaboration and Deployment Services Install Log 定位并确定问题。 点击 Finish 按钮。SPSS Collaboration and Deployment Services Configuration Tool 将会自动启动。安装完成后,需要对 CADS 进行配置。
配置 IBM SPSS CADS
IBM SPSS CADS 安装完成后,必须对其进行配置才可使用。配置的过程主要完成下面三项任务:
针对 Content repository 创建数据库对象,如创建数据表并写入内容。 创建 application server 的资源,比如 JMS 队列,部署 J2EE 的 jar 包到 application server 中。 配置加密以及安全。
双击<CADS foler>\bin 中的 configTool.bat 批处理文件,启动 CADS 的配置工具 IBM SPSS Collaboration and Deployment Services Configuration Tool。点击 Next 按钮进入 Application server 的配置界面。在 Application server type 下拉列表中选择 IBM WebSphere,并在 WebSphere profile directory 中设置上文中创建的 manager profile,即 Dmgr01。CADS 会根据 profile 的属性自动判断属于 Single Server 类型还是 Cluster 类型。在 URL prefix 中填写访问 Load Balancer 的 URL。
图 9. 配置应用服务器
接下来点击 Next 后进入数据库配置界面。在数据库类型中选择 IBM DB2,并在下面的配置项中填写主机名、端口、数据库名称、用户名和密码等信息。
图 10. 配置数据库
点击 Next 按钮,CADS 会尝试连接你配置的数据库,如果连接不成功,它会给出错误信息知道您纠正错误;如果连接成功,配置工具会进入到 Existing data 配置界面。
如果用户选择的数据库为空,那么用户则不需要配置 exiting data 页面。如果用户选择的数据库安装过 IBM SPSS Collaboration and Deployment Services,那么用户可以选择复用以前的数据库信息或者开始全新的安装。
接下来是 keystore 的配置页面。Keystore 其实相当于一个密钥,用来给 IBM SPSS Collaboration and Deployment Services 里面保存的密码等信息进行加密。用户可以输入 keystore 的密码用来给 keystore 加密。
接下来是 IBM SPSS Collaboration and Deployment Services 的 admin 账号的配置页面。用户在这里可以配置 admin 账号的密码。
接下来用户可以选择自动化部署或者手工的部署方式。自动化的部署方式下,所有资源的部署都将由 IBM SPSS Collaboration and Deployment Services Configuration Tool 进行自动进行。如果选择手工的部署方式,那么 IBM SPSS Collaboration and Deployment Services Configuration Tool 将生成部署所需要的资源,但是需要用户手工将他们部署到应用服务器上面。
最后一个页面是 Configuration Summary。刚才用户的所有配置,都将在此页面罗列出来。点击 Configure 按钮,IBM SPSS Collaboration and Deployment Services Configuration Tool 就开始工作,将 IBM SPSS Collaboration and Deployment Services 部署到用户设置的应用服务器和数据库中。如果此过程中出现问题,用户可以查看 install log 以定位。
图 11. 配置信息汇总界面
IBM SPSS 商业分析系统在集群中的配置
IBM SPSS CADS 安装并配置完毕后,就可以安装 Modeler Adapter 和 Decision Management。在安装之前,必须将 CADS 的文件夹设置成共享模式,然后在 WebSphere 的控制台修改 WebSphere 变量。例如将 c:\qatest\cads 修改为\\hostname\qatest\cads。
图 12. WebSphere 控制台配置
Web 集群环境的创建
你可以选择 WebSphere8 Http Server 或 WebSphere7 Http Server 作为你的负载均衡器,默认安装好 Http Server 后,进入 Dmgr 控制台,在左侧的 Servers 菜单中选择 Web servers 选项,让我们创建一个 web server。
图 13. WebServer 配置 1
图 14. WebServer 配置 2
生成 web server 后,进入 Servers->Web servers 配置界面,点击 Propagate Plug-in 按钮对刚才配置的 webserver 进行传播。
图 15. WebServer 配置 3
传播完成后,启动 webserver1 和 cluster。
图 16. WebServer 配置 4
图 17. 启动 Cluster 界面
配置完成后,用户就可以在 CADS 集群环境上安装 Modeler Adapter 和 Decision Management。安装方式和单机版的安装方式一样,用户可以参考 IBM Developerworks 上的 IBM SPSS Decision Management 企业级应用环境部署文章。
搭建 IBM SPSS Modeler Server 集群环境
本文以两台 Modeler Server 组成的集群为例,讲解 Modeler Server 集群环境的配置。Modeler Server 的安装方法非常简单,只需根据安装界面一路 Next 下去即可,本文不再赘述。安装好后,分别进入到这两个系统中的 Modeler Server 安装目录,删除 options.cfg 文件中关于
“administrators,“*””上的注释符号,然后重启 Modeler Server 服务。
接下来,我们需要使用 Modeler Administrator Console 配置这两个 Modeler Server,使其用集群的工作方式运行,并和前面搭建的 Web 集群环境一同工作。
图 18. Modeler Server 集群配置
配置完成后,重启 Web 集群环境。
使用 IBM SPSS Collaboration and Deployment Services Manager 在 repository 中配置 modeler server。打开 IBM SPSS Collaboration and Deployment Services Manager 并登陆到你的环境中,你会发现在 Servers 中已经有了两个 modeler server 对象。右键点击 Server Clusters,新建一个 Server Cluster Definition。
图 19. 新建 Modeler Server 集群名
图 20. 添加已有的 Modeler Serve 节点到集群
对 Repository 添加名为 modeler 的 Credentials。
配置完成后,在浏览器中输入 http://hostname:80/DM,然后你就可以开始你的 IBM SPSS Analytical Decision Management 的集群之旅了。系统在运行过程中,会根据负载的情况,动态调配使用哪一个 Modeler Server 进行建模。
Web 集群常见问题的解决
完成上面的步骤后,用户应该可以通过在浏览器中输入 http://hostname:80/DM 打开 IBM SPSS Analytical Decision Management 环境,如果无法打开,请尝试下面的一系列检查步骤。
登录 WebSphere 管理界面:在浏览器中输入 http://hostname:9060/ibm/console。 检查 webserver1 server 是否在 WebSphere 的 Cell 中(System Administration -> Cell),这一步是来验证是否将 HTTP server 进行了传播。 点击 webserver1 server(Servers -> Web servers)中的“Generate Plug-in”按钮,查看 web server 是否成功的创建。 检查 CADS 安装路径,查看 CADS 是否已经成功地安装。 如果 plugin-cfg.xml 没更新,请尝试重新更新此文件:首先删除 webserver 并重新创建,接下来点击“Generate Plug-in”按钮,此时 plugin-cfg.xml 就可以被更新了。Web 集群管理界面会出现类似下面的 Log: PLGC0005I: Plug-in configuration file = C:\IBM\WebSphere\AppServer\profiles\Dmgr01\config\cells\ DG1DM-DATA2Cell01\nodes\DG1DM-CLST-2ANode01\servers\webserver1\plugin-cfg.xml 当 GeneratePlug-in 完成后,点击 Propagate Plug-in 按钮。这一步骤会自动将更新好的 plugin-cfg.xml 文件从 domain manager 目录复制到 HTTP server 的目录。Web 集群管理界面会出现类似下面的 Log: LGC0062I: The plug-in configuration file is propagated from C:\IBM\WebSphere\AppServer\profiles\Dmgr01\config\cells\ DG1DM-DATA2Cell01\nodes\DG1DM-CLST-2ANode01\servers\webserver1\plugin-cfg.xml to C:\IBM\ WebSphere\HTTPServer\Plugins/config/webserver1/plugin-cfg.xml on the Web server computer. PLGC0048I: The propagation of the plug-in configuration file is complete for the Web server DG1DM-DATA2Cell01 完成上述步骤后,点击 Start 按钮重启 webserver。并在 Windows 服务中重启 HTTP server。
结束语
本文以 Windows 平台为例子主要讲解了 IBM SPSS Analytical Decision Management 商业分析系统在集群环境中的部署与配置,对于 Linux 和 UNIX 平台上的安装、配置的过程与 Windows 基本相同。希望本文能为大家在 IBM SPSS Analytical Decision Management 集群应用部署方面提供一些借鉴和帮助。