用WEKA进行数据挖掘，第1部分简介和回归

简介

什么是数据挖掘？您会不时地问自己这个问题，因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Yahoo! 这样的公司都在生成有关其所有用户的数十亿的数据点，您不禁疑惑，“它们要所有这些信息干什么？”您可能还会惊奇地发现 Walmart 是最为先进的进行数据挖掘并将结果应用于业务的公司之一。现在世界上几乎所有的公司都在使用数据挖掘，并且目前尚未使用数据挖掘的公司在不久的将来就会发现自己处于极大的劣势。

那么，您如何能让您和您的公司跟上数据挖掘的大潮呢？

我们希望能够回答您所有关于数据挖掘的初级问题。我们也希望将一种免费的开源软件 Waikato Environment for Knowledge Analysis (WEKA) 介绍给您，您可以使用该软件来挖掘数据并将您对您用户、客户和业务的认知转变为有用的信息以提高收入。您会发现要想出色地完成挖掘数据的任务并不像您想象地那么困难。

此外，本文还会介绍数据挖掘的第一种技术：回归，意思是根据现有的数据预测未来数据的值。它可能是挖掘数据最为简单的一种方式，您甚至以前曾经用您喜爱的某个流行的电子数据表软件进行过这种初级的数据挖掘（虽然 WEKA 可以做更为复杂的计算）。本系列后续的文章将会涉及挖掘数据的其他方法，包括群集、最近的邻居以及分类树。（如果您还不太知道这些术语是何意思，没关系。我们将在这个系列一一介绍。）

什么是数据挖掘？

数据挖掘，就其核心而言，是指将大量数据转变为有实际意义的模式和规则。并且，它还可以分为两种类型：直接的和间接的。在直接的数据挖掘中，您会尝试预测一个特定的数据点 — 比如，以给定的一个房子的售价来预测邻近地区内的其他房子的售价。

在间接的数据挖掘中，您会尝试创建数据组或找到现有数据内的模式 — 比如，创建 “中产阶级妇女”的人群。实际上，每次的美国人口统计都是在进行数据挖掘，政府想要收集每个国民的数据并将它转变为有用信息。

现代的数据挖掘开始于 20 世纪 90 年代，那时候计算的强大以及计算和存储的成本均到达了一种很高的程度，各公司开始可以自己进行计算和存储，而无需再借助外界的计算帮助。

此外，术语数据挖掘是全方位的，可指代诸多查看和转换数据的技术和过程。因为本系列只触及能用数据挖掘实现的功能的一些皮毛。数据挖掘的专家往往是数据统计方面的博士，并在此领域有 10-30 年的研究经验。这会为您留下一种印象，即只有大公司才能负担得起数据挖掘。

我们希望能够清除有关数据挖掘的这些误解并希望弄清楚一点：数据挖掘既不像对一系列数据运行一个电子数据表函数那么简单，也不像有人想的那样难到靠自己根本无法实现。这是 80/20 范型的一个很好的例子 — 甚至更进一步可以是 90/10 范型。您用所谓的数据挖掘专家的 10% 的专业知识就能创建具有 90% 效力的数据挖掘模型。而为了补上模型剩下的 10% 的效力并创建一个完美的模型将需要 90% 额外的时间，甚至长达 20 年。所以除非您立志以数据挖掘为职业方向，否则“足够好”就可以了。从另一个方面看，利用数据挖掘所达到的“足够好”总要比您现在所采用的其他技术要好。

数据挖掘的最终目标就是要创建一个模型，这个模型可改进您解读现有数据和将来数据的方式。由于现在已经有很多数据挖掘技术，因此创建一个好的模型的最主要的步骤是决定要使用哪种技术。而这则极大地依赖于实践和经验以及有效的指导。这之后，需要对模型进行优化以让它更令人满意。在阅读了本系列的文章后，您应该能够自己根据自己的数据集正确决定要使用的技术，然后采取必要的步骤对它进行优化。您将能够为您自己的数据创建一个足够好的模型。

WEKA

数据挖掘绝非大公司的专有，也不是多昂贵的软件。实际上，有一种软件可以实现那些价格不菲的软件所能实现的全部功能 — 这个软件就是 WEKA。WEKA 诞生于 University of Waikato（新西兰）并在 1997 年首次以其现代的格式实现。它使用了 GNU General Public License (GPL)。该软件以 Java 语言编写并包含了一个 GUI 来与数据文件交互并生成可视结果（比如表和曲线）。它还有一个通用 API，所以您可以像嵌入其他的库一样将 WEKA 嵌入到您自己的应用程序以完成诸如服务器端自动数据挖掘这样的任务。

我们继续并安装 WEKA。因为它基于 Java，所以如果您在计算机上没有安装 JRE，那么请下载一个包含 JRE 的 WEKA 版本。

图 1. WEKA 的开始屏

时间： 2024-10-31 09:03:40

用WEKA进行数据挖掘，第1部分简介和回归

用WEKA进行数据挖掘，第1部分简介和回归的相关文章

用WEKA进行数据挖掘，第2部分分类和群集

用WEKA进行数据挖掘，第3部分最近邻和服务器端库

初试weka数据挖掘

数据挖掘-weka学习AdditiveRegression算法

weka学习入门笔记

资源总结——七步学习数据挖掘与数据科学

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

纯干货：大数据挖掘方法及案例介绍（以后不会再被忽悠了）

什么是数据挖掘?分析如何揭示洞察

用WEKA进行数据挖掘，第1部分 简介和回归

用WEKA进行数据挖掘，第1部分 简介和回归的相关文章

用WEKA进行数据挖掘，第1部分简介和回归

用WEKA进行数据挖掘，第1部分简介和回归的相关文章