《R语言数据挖掘》----1.2 数据源

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问“华章计算机”公众号查看。

1.2 数据源

数据充当数据挖掘系统的输入,因此数据存储库是非常重要的。在企业环境中,数据库和日志文件是常见来源;在网络数据挖掘中,网页是数据的来源;连续地从各种传感器中提取数据也是典型的数据源。

这里有一些免费的在线数据源十分有助于学习数据挖掘:

频繁项集挖掘数据存储库(Frequent Itemset Mining Dataset Repository):一个带有数据集的存储库,用于找到频繁项集的方法(http://fimi.ua.ac.be/data/)。

UCI机器学习存储库(UCI Machine Learning Repository):一个数据集的集合,适用于分类任务(http://archive.ics.uci.edu/ml/)。

statlib的数据及其描述库(The Data and Story Library at statlib):DASL是一个在线库,它拥有说明基本统计方法用途的数据文件和故事。我们希望提供来自多主题的数据,这样统计学教师可以找到学生感兴趣的真实世界的例子。使用DASL强大的搜索引擎来查找感兴趣的故事和数据文件(http://lib.stat.cmu.edu/DASL/)。

词汇网(WordNet):一个英语词汇数据库(http://wordnet.princeton.edu)。

时间: 2024-08-03 19:41:57

《R语言数据挖掘》----1.2 数据源的相关文章

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

《R语言数据挖掘》----1.3 数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.3 数据挖掘 数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的.有效的.意想不到的且可以理解的知识.有些目标与其他科学,如统计学.人工智能.机器学习和模式识别是相同的.在大多数情况下,数据挖掘通常被视为一个算法问题.聚类.分类.关联

《R语言数据挖掘》----1.6 网络数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 网络数据挖掘 网络挖掘的目的是从网络超链接结构.网页和使用数据来发现有用的信息或知识.网络是作为数据挖掘应用输入的最大数据源之一. 网络数据挖掘基于信息检索.机器学习(Machine Learning,ML).统计学.模式识别和数据挖掘.尽管很多数据挖掘方法

《R语言数据挖掘》----1.11 数据清洗

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.11节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.11 数据清洗 数据清洗是数据质量的一部分,数据质量(Data Quality,DQ)的目标如下: 准确性(数据被正确记录). 完整性(所有相关数据都被记录). 唯一性(没有重复的数据记录). 时效性(数据不过时). 一致性(数据是一致的). 数据清洗试图填补

《R语言数据挖掘》----1.12 数据集成

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.12节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.12 数据集成 数据集成将多个数据源中的数据合并,形成一个一致的数据存储.其常见的问题如下: 异构数据:这没有普遍的解决方案. 不同的定义(different definition):这是内在的,即相同的数据具有不同的定义,如不同的数据库模式. 时间一致性:这

《R语言数据挖掘》----1.15 结果可视化

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.15节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.15 结果可视化 可视化是数据描述的图形表示,以便一目了然地揭示复杂的信息,包括所有类型的结构化信息表示.它包括图形.图表.图解.地图.故事板以及其他结构化的图示. 好的可视化结果使你有机会通过专家的眼光来查看数据.可视化结果很美,不仅因为它们的美学设计,而且

《R语言数据挖掘》----1.17 总结

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.17节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.17 总结 本章讨论了以下主题: 数据挖掘和可用的数据源. R语言的简要概述以及使用R语言的必要性. 统计学和机器学习,以及它们与数据挖掘关系的描述. 两个标准的行业数据挖掘过程. 数据属性类型和数据测量方法. 数据预处理的3个重要步骤. 数据挖掘算法的可扩展

《R语言数据挖掘》----第1章 预备知识 1.1大数据

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第1章 预备知识 本章中,你将学习基本的数据挖掘术语,比如数据定义.预处理等.最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类.聚类和异常值检测.在深入研究数据挖掘之前,我们来看一看将要介绍的主题:数据挖掘社交网络挖掘文本挖掘网络