3.3 常用的建模工具
数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断地磨合才能取得成功。因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:
下面简单介绍几种常用的数据挖掘建模工具:
1.Enterprise Miner
Enterprise Miner(简称EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间(Workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(Workflow),便可以得到相应的结果。
2.Clementine
SPSS的核心挖掘产品Clementine提供了一个可视化的快速建立模型的环境,作为业内领先的数据挖掘平台,允许企业利用业务专业技能快速开发预测模型,并迅速部署提升决策水平。Clementine能够帮助企业达成目标:
Clementine虽然在数据挖掘算法上做得很好,但是没有充分考虑综合各种预测方法来优化预测结果,另外就是其可测量性较差。
3.Intelligent Miner
IBM的Intelligent Miner正在竞争数据挖掘工具市场的领导地位,竞争力主要集中在资料探勘上。
4.SQL Server
Microsoft的SQL Server中集成了数据挖掘工具,借助SQL Server的数据库管理功能,用户可以实现数据挖掘建模。在SQL Server 2008中提供了决策树算法、聚类分析算法、Naive Bayes算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是其预测建模的实现是基于SQL Server平台的,而平台移植性相对较差,也没有考虑综合各种预测方法来优化预测结果。
5.MATLAB
MATLAB(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力。它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。它的应用领域十分广泛,主要包括:数学计算和分析、自动控制、系统仿真、数学信号处理、图形图像分析、数理统计、人功智能、虚拟现实技术、金融系统等。
6.WEKA
WEKA(Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,WEKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。
7.TipDM
顶尖数据挖掘平台(TipDM)是广州TipDM团队花费数年自主研发的一个数据挖掘平台,基于云计算和SOA架构,使用Java语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。
TipDM支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。支持CRISP-DM流程所需的主要过程,并且完成一系列功能,包括:
TipDM典型应用场景见图3-3。