自从我上次斗胆回答“如何选择数据挖掘工具”之后,已经好几年过去了。本文主要阐述以下两个核心观点:
1. 没有最好的工具,更确切地说,没有适合所有人的最好的工具。
2. 最有用的工具,是那些能够满足你所需要的绝大多数数据挖掘任务的工具。
主要的数据挖掘任务
大多数数据挖掘人员都明白,数据挖掘项目中70%到90%的工作是做数据准备。在数据挖掘工具的演进过程中,数据准备功能的开发一直被放在次要位置上。最后,你要能够对模型准确评估,才能比较多个模型,并将它们推荐给市场人员。
数据准备任务
常见的数据准备任务包括:
◆进行数据评估
以判别出:
缺失值(空字符串、空格、空值)
孤立点
共线性评估(自变量之间的相关性)
◆合并多个数据集;
◆从不同输入格式到通用分析格式的元数据(字段的名称和类型)映射;
◆将类似变量的值变换为通用格式;
◆某些算法对输入变量有特殊要求,需要将数值型变量变换为类别型(通过数据分箱和分类),或者将类别型变换为数值型;
◆将变量值切分为多个字段,或将多个字段合并为一个字段;
◆从现有变量中派生新变量。大多数数据挖掘人员发现,有些最具有预测能力的变量,正是派生出来的变量。
大多数数据挖掘工具会把这些数据挖掘功能放在次要的地位, 本文则会侧重评估常见数据挖掘工具处理这些任务的能力。
除了能支持以上的数据准备任务,一个好的数据挖掘工具还应该包含模型评估的功能,以便比较建模过程中产生的多个模型,并用于支持直效营销(direct marketing)。
时间: 2024-12-28 05:27:06