《R语言数据挖掘》----1.2 数据源

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.2节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问“华章计算机”公众号查看。

1.2　数据源

数据充当数据挖掘系统的输入，因此数据存储库是非常重要的。在企业环境中，数据库和日志文件是常见来源；在网络数据挖掘中，网页是数据的来源；连续地从各种传感器中提取数据也是典型的数据源。

这里有一些免费的在线数据源十分有助于学习数据挖掘：

频繁项集挖掘数据存储库（Frequent Itemset Mining Dataset Repository）：一个带有数据集的存储库，用于找到频繁项集的方法（http://fimi.ua.ac.be/data/）。

UCI机器学习存储库（UCI Machine Learning Repository）：一个数据集的集合，适用于分类任务（http://archive.ics.uci.edu/ml/）。

statlib的数据及其描述库（The Data and Story Library at statlib）：DASL是一个在线库，它拥有说明基本统计方法用途的数据文件和故事。我们希望提供来自多主题的数据，这样统计学教师可以找到学生感兴趣的真实世界的例子。使用DASL强大的搜索引擎来查找感兴趣的故事和数据文件（http://lib.stat.cmu.edu/DASL/）。

词汇网（WordNet）：一个英语词汇数据库（http://wordnet.princeton.edu）。

时间： 2024-08-03 19:41:57

《R语言数据挖掘》----1.2 数据源的相关文章

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R ［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel) 著李洪成许金炜段力辉译图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----第2章频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 第2章频繁模式.关联规则和相关规则挖掘本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述购物篮分析混合关联规则挖掘

《R语言数据挖掘》----1.3 数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.3节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.3 数据挖掘数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的.有效的.意想不到的且可以理解的知识.有些目标与其他科学,如统计学.人工智能.机器学习和模式识别是相同的.在大多数情况下,数据挖掘通常被视为一个算法问题.聚类.分类.关联

《R语言数据挖掘》----1.6 网络数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.6节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 网络数据挖掘网络挖掘的目的是从网络超链接结构.网页和使用数据来发现有用的信息或知识.网络是作为数据挖掘应用输入的最大数据源之一. 网络数据挖掘基于信息检索.机器学习(Machine Learning,ML).统计学.模式识别和数据挖掘.尽管很多数据挖掘方法

《R语言数据挖掘》----1.11 数据清洗

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.11节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.11 数据清洗数据清洗是数据质量的一部分,数据质量(Data Quality,DQ)的目标如下: 准确性(数据被正确记录). 完整性(所有相关数据都被记录). 唯一性(没有重复的数据记录). 时效性(数据不过时). 一致性(数据是一致的). 数据清洗试图填补

《R语言数据挖掘》----1.12 数据集成

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.12节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.12 数据集成数据集成将多个数据源中的数据合并,形成一个一致的数据存储.其常见的问题如下: 异构数据:这没有普遍的解决方案. 不同的定义(different definition):这是内在的,即相同的数据具有不同的定义,如不同的数据库模式. 时间一致性:这

《R语言数据挖掘》----1.15 结果可视化

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.15节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.15 结果可视化可视化是数据描述的图形表示,以便一目了然地揭示复杂的信息,包括所有类型的结构化信息表示.它包括图形.图表.图解.地图.故事板以及其他结构化的图示. 好的可视化结果使你有机会通过专家的眼光来查看数据.可视化结果很美,不仅因为它们的美学设计,而且

《R语言数据挖掘》----1.17 总结

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.17节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.17 总结本章讨论了以下主题: 数据挖掘和可用的数据源. R语言的简要概述以及使用R语言的必要性. 统计学和机器学习,以及它们与数据挖掘关系的描述. 两个标准的行业数据挖掘过程. 数据属性类型和数据测量方法. 数据预处理的3个重要步骤. 数据挖掘算法的可扩展

《R语言数据挖掘》----第1章预备知识 1.1大数据

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.1节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 第1章预备知识本章中,你将学习基本的数据挖掘术语,比如数据定义.预处理等.最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类.聚类和异常值检测.在深入研究数据挖掘之前,我们来看一看将要介绍的主题:数据挖掘社交网络挖掘文本挖掘网络

猜你喜欢

Maven发布工程到公共库

1.发布工程新建一个 Maven build 选择要发布的工程转载:http://www.cnblogs.com/lovesong/p/4542692.html

Photoshop美女图片调色:橙红色调夕阳图片

紫红色比较适合外景图片调色.总体效果有点类似朝霞效果.调色的适合只需把背景主色转为紫红色,并在高光部分渲染一些橙红色高光即可.原图最终效果 [1] [2] [3] [4] [5] [6] [7] [ ...

java方法参数传值传引用的一点看法

java 跟C++不同,java的方法参数都是传值,没有传引用.很多人都以为是传引用,而且这种错误的观点很普遍,今天在这里具体分析一下.方法参数有基本类型,如int等,另外一种类型是OBJECT, ...

Dreamweaver巧制可全屏拖动的图片

dreamweaver 我们可以用鼠标把Dreamweaver的层在页面内拖动,但要全屏拖动就困难了,下面是一种实现的方法: 制作步骤: 一.准备图片,取名http://www.webjx.com/h ...

用Slice扩展OpenJPA应用程序

简介 Slice 将 OpenJPA 扩展用于一个分布式的.水平分区的数据库环境.一个使用单个数据库的基于 OpenJPA 的应用程序可以由 Slice 针对数据跨多个数据库分区存储的存储环境进行 ...

Excel 2010中设置分数类型数字格式

在Excel2010工作表中,用户可以将被选中单元格中的小数设置分数表示,Excel2010的分数格式将小数四舍五入为值最接近的分数. 在分数类别中,用户可以选择分母分别为2.4.8.16.10和 ...

四款截取音乐的软件推荐

一.专业软件以下两款为专业的音频剪辑软件,适合具备音频处理知识,且需要处理较多音频格式的朋友.如果仅需要进行MP3/WAV音乐的剪辑,建议使用二介绍的简单软件. 1.Gold ...

Favoritevideo是什么文件夹？

Favoritevideo是什么文件夹?怎么都删不掉?为什么 FavoriteVideo这个文件夹一般会出现在你硬盘最大分区的根目录下边,他是由PP加速器产生的缓存文件夹,当你在网页上播放视频或者音乐 ...

c语言-C语言递归的数字转换问题，习题求解

问题描述 C语言递归的数字转换问题,习题求解 C语言使用递归算法将一个正整数字符串为对应的数值.不得使用循环解决方案 c语言没有默认参数吧,改为: #include <stdio.h> ...

多线程-用c++实现singleton模式。

问题描述用c++实现singleton模式. 作业:用c++实现singleton模式.具体的该如何下手啊?关于C++多线程的书籍知道的比较好的帮忙推荐一下了.谢谢解决方案 C++多线程的书籍推荐 ...

android RadioButton和CheckBox组件的使用方法_Android

RadioButton是单选按钮,多个RadioButton放在一个RadioGroup控件中,也就是说每次只能有1个RadioButton被选中.而CheckBox是多选按钮,Toatst是andr ...

微软拒绝在华销售Win8盒装版本

10月29日独家消息, 搜狐IT从多个消息源确认,微软中国的产品策略将进行重大调整,具体表现为微软不会在中国内地发售Windows 8盒装产品.这意味着,微软在中国内地采取了不同于微软全球的产品策略. ...

CentOS6.4 LVS rpm包安装及源码安装

RPM包安装系统平台 CentOS 6.4 x64 minimal KERNEL 2.6.32-358.23.2.el6.x86_64 LVS版本 ipvsadm-1.25-10.el6.x86_6 ...

nsstring-NSString转NSDate的问题求助

问题描述 NSString转NSDate的问题求助需要将如下NSString转成NSDate: 2015-08-30T08:00:00.000 我的代码如下: NSString *dateStrin ...

java-spring的schema申明到底怎么写，有相关说明吗

问题描述 spring的schema申明到底怎么写,有相关说明吗最近学spring,<beans 后面的schema申明书上根本就没说在哪里可以看到,完全没规律啊,spring的文档上也没有一 ...

人工智能+呼叫中心来了 —— �为保证服务质量，您的通话可能被录音”不再是空话

说起拨打客户服务热线或者其它客服中心电话,那通常可不是什么好的体验.一些客户服务热线广受争议,以至于很多人宁愿自己去解决问题也不愿意去找他们帮忙. 但是所有的这些可能会随着商业公司使用先进的数据收集, ...

2017年大数据会是广告市场最后一根救命草吗？

在最近发布的<2016年广告市场简述>中,首先映入眼帘的两个数字显得格外引入注目.一个是0.6%,即中国整体广告市场下降率,另一个是6.0%.在整体广告行业低迷的环境下,即使是全球最大的传 ...

图片编辑软件《滤镜涂改》限免中

图片编辑应用数不胜数,而这款<滤镜涂改>有着特别的手动涂改调整滤镜效果功能.有时候看到千篇一律的整张滤镜效果,可能并非你所想要,那么试试局部的滤镜效果如何?可能会有惊喜噢~不过涂起来很累 ...

MySQL · 答疑解惑 · MySQL 的那些网络超时错误

前言我们在使用/运维 MySQL 过程中,经常会遇到一些网络相关的错误,比如: Aborted connection 134328328 to db: 'test' user: 'root' hos ...

Android游戏之输入类设计（传感器，键盘，触摸点）

Android游戏之输入类设计(传感器,键盘,触摸点) 1.基础知识: A. SensorEventListener传感器事件监听 http://developer.android.com/r ...

Visual InterDev常见问题解答（一）

1.FrontPage和Visual InterDev有何差异?新版本有什么变化吗?2.Visual InterDev和Visual Basic如何实现共同开发?3.使用Visual InterDev ...

上海数字媒体企业数量达10959家产值达600亿元

随着数字化的文化创作和生产方式以及新技术和载体的广泛运用,数字媒体产业快速发展壮大.上海作为国内数字媒体产业重镇,在政府积极推动.研究机构和企业界的不懈努力下,发展潜力不断积聚爆发,产学研环境和布局日 ...

盛大文学：先养凤凰鸟不愁梧桐生？

在盛大文学CEO侯小强看来,与GoogleBook和Ama-zonKindle这两种新型的数字出版模式相比,盛大文学更像是内容生产的集合商.准确地说,是目前93万多在线文学创作者正在源源不断地产出具备 ...

重金悬赏：OpenStack实践文章

问题描述近几年来,云计算技术大行其道,逐渐在各行各业中生根发芽,并获得良好的收效.现CSDN联合IBMdeveloperWorks(dW)中文社区举办专栏活动,面向广大CSDN网友征稿.第一期活动征 ...

今年10月全球移动端互联网流量首超PC端

根据StatCounter发布的数据,移动设备生成的网络流量终于超过了桌面设备. 这一节点的到来是必然的,由桌面设备产生的流量在过去7年一直处于下行曲线,而移动设备产生的流量则正与之相反.从今年10月 ...

js树形菜单_树形菜单代码

个人资料基本信息修改密码我的简历求职简历求职意向上传照片简历预览职位搜索快速搜索应聘管理应聘记录企业邀请收藏职位我的知识我要提问我要回答发问记录回答记录分数记录

excel如何将单元格变成图片,如何将单元格变成图片

1.选择要转换为图片的单元格区域: 2.对选中区域单击鼠标右键,选择"复制"命令: 3.在空白单元格单击鼠标右键,并移动鼠标至"选择性粘贴": ...

蓝云：IBM的战略投资计划

IBM将其未来的策略方向集中在云计算中.IBM计划建立一个全新的极具规模的商业模式,把主流的企业客户引入Google风格的计算方式之中.前段时间IBM正式将自己的策略对外公布,表示正在大型数据中心方面 ...

四博是干什么的?

问题描述这几天看到了很多四博的广告,想知道是干什么的! 解决方案解决方案二:四博互联成立于2003年,一家致力于增值电信业务.网络服务解决方案制定与实施.互联网技术开发.网络安全服务的高新技术企业 ...

Illustrator无缝拼接图案的快速制作教程

给各位Illustrator软件的使用者们来详细的解析分享一下无缝拼接图案的快速制作的教程. 教程分享: AI中简单图案的制作非常简单,只要画好图形,把它选中拖放到swatches面板中就可以了.就像 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.020 s.