用WEKA进行数据挖掘,第1部分 简介和回归

简介

什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题 越来越得到技术界的关注。您可能听说过像 Google 和 Yahoo! 这样的公司都在 生成有关其所有用户的数十亿的数据点,您不禁疑惑,“它们要所有这些 信息干什么?”您可能还会惊奇地发现 Walmart 是最为先进的进行数据挖 掘并将结果应用于业务的公司之一。现在世界上几乎所有的公司都在使用数据挖 掘,并且目前尚未使用数据挖掘的公司在不久的将来就会发现自己处于极大的劣 势。

那么,您如何能让您和您的公司跟上数据挖掘的大潮呢?

我 们希望能够回答您所有关于数据挖掘的初级问题。我们也希望将一种免费的开源 软件 Waikato Environment for Knowledge Analysis (WEKA) 介绍给您,您可 以使用该软件来挖掘数据并将您对您用户、客户和业务的认知转变为有用的信息 以提高收入。您会发现要想出色地完成挖掘数据的任务并不像您想象地那么困难 。

此外,本文还会介绍数据挖掘的第一种技术:回归,意思是根据现有的数据 预测未来数据的值。它可能是挖掘数据最为简单的一种方式,您甚至以前曾经用 您喜爱的某个流行的电子数据表软件进行过这种初级的数据挖掘(虽然 WEKA 可 以做更为复杂的计算)。本系列后续的文章将会涉及挖掘数据的其他方法,包括 群集、最近的邻居以及分类树。(如果您还不太知道这些术语是何意思,没关系 。我们将在这个系列一一介绍。)

什么是数据挖掘?

数据挖掘, 就其核心而言,是指将大量数据转变为有实际意义的模式和规则。并且,它还可 以分为两种类型:直接的和间接的。在 直接的 数据挖掘中,您会尝试预测一个 特定的数据点 — 比如,以给定的一个房子的售价来预测邻近地区内的其 他房子的售价。

在 间接的 数据挖掘中,您会尝试创建数据组或找到现 有数据内的模式 — 比如,创建 “中产阶级妇女”的人群。实 际上,每次的美国人口统计都是在进行数据挖掘,政府想要收集每个国民的数据 并将它转变为有用信息。

现代的数据挖掘开始于 20 世纪 90 年代,那 时候计算的强大以及计算和存储的成本均到达了一种很高的程度,各公司开始可 以自己进行计算和存储,而无需再借助外界的计算帮助。

此外,术语数 据挖掘是全方位的,可指代诸多查看和转换数据的技术和过程。因为本系列只触 及能用数据挖掘实现的功能的一些皮毛。数据挖掘的专家往往是数据统计方面的 博士,并在此领域有 10-30 年的研究经验。这会为您留下一种印象,即只有大 公司才能负担得起数据挖掘。

我们希望能够清除有关数据挖掘的这些误 解并希望弄清楚一点:数据挖掘既不像对一系列数据运行一个电子数据表函数那 么简单,也不像有人想的那样难到靠自己根本无法实现。这是 80/20 范型的一 个很好的例子 — 甚至更进一步可以是 90/10 范型。您用所谓的数据挖掘 专家的 10% 的专业知识就能创建具有 90% 效力的数据挖掘模型。而为了补上模 型剩下的 10% 的效力并创建一个完美的模型将需要 90% 额外的时间,甚至长达 20 年。所以除非您立志以数据挖掘为职业方向,否则“足够好”就 可以了。从另一个方面看,利用数据挖掘所达到的“足够好”总要比 您现在所采用的其他技术要好。

数据挖掘的最终目标就是要创建一个模 型,这个模型可改进您解读现有数据和将来数据的方式。由于现在已经有很多数 据挖掘技术,因此创建一个好的模型的最主要的步骤是决定要使用哪种技术。而 这则极大地依赖于实践和经验以及有效的指导。这之后,需要对模型进行优化以 让它更令人满意。在阅读了本系列的文章后,您应该能够自己根据自己的数据集 正确决定要使用的技术,然后采取必要的步骤对它进行优化。您将能够为您自己 的数据创建一个足够好的模型 。

WEKA

数据挖掘绝非大公司的专 有,也不是多昂贵的软件。实际上,有一种软件可以实现那些价格不菲的软件所 能实现的全部功能 — 这个软件就是 WEKA。WEKA 诞生于 University of Waikato(新西兰)并在 1997 年首次以其现代的格式实现。它使用了 GNU General Public License (GPL)。该软件以 Java 语言编写并包含了一 个 GUI 来与数据文件交互并生成可视结果(比如表和曲线)。它还有一个通用 API,所以您可以像嵌入其他的库一样将 WEKA 嵌入到您自己的应用程序以完成 诸如服务器端自动数据挖掘这样的任务。

我们继续并安装 WEKA。因为它基于 Java,所以如果您在计算机上没有安装 JRE,那么请下载一个包含 JRE 的 WEKA 版本。

图 1. WEKA 的开始屏

时间: 2024-10-31 09:03:40

用WEKA进行数据挖掘,第1部分 简介和回归的相关文章

用WEKA进行数据挖掘,第2部分 分类和群集

简介 在 用 WEKA 进行数据挖掘,第 1 部分:简介和回归,我介绍了数据挖掘的 概念以及免费的开源软件 Waikato Environment for Knowledge Analysis (WEKA),利用它可以挖掘数据来获得趋势和模式.我还谈到了第一种数据挖掘 的方法 - 回归 - 使用它可以根据一组给定的输入值预测数字值.这种分析方 法非常容易进行,而且也是功能最不强大的一种数据挖掘方法,但是通过它,读 者对 WEKA 有了很好的了解,并且它还提供了一个很好的例子,展示了原始数据 是如

用WEKA进行数据挖掘,第3部分 最近邻和服务器端库

简介 在这个 "用 WEKA 进行数据挖掘" 系列之前的两篇文章中,我介绍了数据 挖掘的概念.如果您还未曾阅读过 用 WEKA 进行数据挖掘,第 1 部分:简介和 回归 和 用 WEKA 进行数据挖掘,第 2 部分:分类和群集,那么请先阅读这两 个部分,因为二者涵盖了一些在继续之前必须了解的关键概念.而且更重要的是 ,在这两个部分中我谈及了数据挖掘中常用的三种技术,它们可以将难以理解的 无用数据转变为有意义的规则和趋势.第一种技术是回归,用来基于其他的示例 数据预测一个数值输出(比如房

初试weka数据挖掘

        偶然间在网上看到了一篇关于weka好的博文,就记录了下来--             weka下载地址为http://www.cs.waikato.ac.nz/ml/weka/downloading.html             读者有时候看到两个图片并列,其中一个是原文的,另一个是我实验时打开的. 一.引入         数据挖掘.机器学习这些字眼,在一些人看来,是门槛很高的东西.诚然,如果做算法实现甚至算法优化,确实需要很多背景知识.但事实是,绝大多数数据挖掘工程师不需

数据挖掘-weka学习AdditiveRegression算法

问题描述 weka学习AdditiveRegression算法 AdditiveRegression算法(GBDT在weka中的基本实现) 能不能给我一个 拥有使用这个算法对数据进行分类的截图 有正确率的那种 我最近才接触WEKA和数据挖掘 对这个算法不是很了解 网上大牛们博客上的中文内容我也基本都浏览完了 但对实现还是有些搞不定 我用的weka对数据进行分析 如果有经常使用这个平台的大神 还望帮帮忙 感激不尽 解决方案 Weka学习三(ensemble算法)Weka算法介绍[weka 中的算法

weka学习入门笔记

目录  1. 简介 2. 数据格式 3. 数据获取与预处理 3. 关联规则(购物篮分析) 4. 分类与回归 5. 聚类分析 1. 简介  WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka 得到.同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰.  WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机

资源总结——七步学习数据挖掘与数据科学

想知道如何学习数据挖掘和数据科学吗?本文概述了七个步骤,指出的资源能让你成为一名数据科学家. 作者为Gregory Piatetsky,是一名数据挖掘与数据科学方面的专家. 以下为7个步骤用于学习数据挖掘和数据科学.虽然有编号顺序,你也可以并行或以不同的顺序学习: 1 语音:学习R.Python以及SQL语音: 2 工具:了解如何使用数据挖掘和可视化工具: 3 教材:阅读介绍性的教科书,了解基础知识: 4 教育:观看网络研讨会,参加课程,考虑获得数据科学中的证书或学位: 5 数据:检查可用的数据

数据挖掘系列(5)使用mahout做海量数据关联规则挖掘

上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因 为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分 布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人).掌握了关联规则的基本算法和使用 ,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理 解数据便可游刃有余. 安装mahout 骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所

纯干货:大数据挖掘方法及案例介绍(以后不会再被忽悠了)

1.数据挖掘的引入 面对山一样高的,海一样广的数据,我们该怎么办? 数据挖掘中的5W问题 为什么要使用数据挖掘? 数据挖掘是什么? 谁在使用数据挖掘? 数据挖掘有哪些方法? 数据挖掘使用在哪些领域? 百度百科中关于数据挖掘的定义如下: 数据挖掘(英语:Data mining),又译为资料探勘.数据采矿.它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤.数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程.数据挖掘是一

什么是数据挖掘?分析如何揭示洞察

数据挖掘是通过大量数据集进行分类以识别趋势和模式并建立关系的自动化过程. 如今的组织正在收集来自各种来源的日益增长的信息量,包括网站.企业应用程序.社交媒体.移动设备以及日益增加的物联网(IoT). 最大的问题是:如何从这些信息中获得真正的商业价值?数据挖掘可以在很大程度上做出贡献.数据挖掘是通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系,解决业务问题或产生新的机会. 查看数据来了解过去发生的事情以便能够在现在明智地行动只是一方面.数据挖掘工具和技术让你可以预测未来