《R语言数据挖掘》----第1章预备知识 1.1大数据

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.1节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问“华章计算机”公众号查看。

第1章

预备知识

本章中，你将学习基本的数据挖掘术语，比如数据定义、预处理等。
最重要的数据挖掘算法将通过R语言进行说明，以便帮助你快速掌握原理，包括但不局限于分类、聚类和异常值检测。在深入研究数据挖掘之前，我们来看一看将要介绍的主题：
数据挖掘
社交网络挖掘
文本挖掘
网络数据挖掘
为什么选择R
统计学
机器学习
数据属性与描述
数据测量
数据清洗
数据集成
数据降维
数据变换与离散化
结果可视化

在人类历史上，来自每个方面的数据结果都是广泛的，例如网站、由用户的电子邮件或姓名或账户构成的社交网络、搜索词、地图上的位置、公司、IP地址、书籍、电影、音乐和产品。

数据挖掘技术可应用于任何类型的旧数据或者新数据，每种数据类型都可以运用特定的技术（并不需要全部技术）得到最好的处理。也就是说，数据挖掘技术受到数据类型、数据集大小以及任务应用环境等条件的限制。每一种数据集都有自己适合的数据挖掘解决方案。

一旦旧的数据挖掘技术不能应用于新的数据类型或者如果新的数据类型不能转换成传统的数据类型，那么总是需要研究新的数据挖掘技术。应用于Twitter庞大资源集的流数据挖掘算法的演变是一个典型的例子，针对社交网络开发的图挖掘算法是另一个例子。

最流行且最基本的数据形式来自数据库、数据仓库、有序数据或者序列数据、图形数据以及文本数据等。换句话说，它们是联合数据、高维数据、纵向数据、流数据、网络数据、数值数据、分类数据或者文本数据。

1.1　大数据

大数据是数据量很大的数据，它不适合存储在单台机器中。也就是说，在研究大数据时，数据本身的大小成为了问题的一部分。除了容量（Volume），大数据的其他两个主要特征就是多样性（Variety）和速度（Velocity），这就是大数据著名的三个特征。速度指的是数据处理的速率或者数据处理有多快；多样性指的是各种数据源类型。大数据源集合产生的噪声更频繁并且影响挖掘的结果，这就需要高效的数据预处理算法。

因此，分布式文件系统用来作为对大量数据成功执行并行算法的工具，可以肯定的是，每过1秒，我们将得到更多的数据。数据分析和可视化技术是与海量数据相关的数据挖掘任务的主要部分。海量数据的特性吸引了许多与平台相关的新的数据挖掘技术，其中一个就是RHadoop。我们将在后面的内容中对它进行描述。

大数据中的一些重要数据类型如下所述：
第一种数据类型来自摄像机视频，它包含了用于加快犯罪调查分析、增强零售分析以及军事情报分析等更多的元数据。

第二种数据类型来自嵌入式的传感器，如医用传感器，用来监测病毒的任何潜在爆发。

第三种数据类型来自娱乐，由任何人通过社交媒体自由发布的信息。

第四种数据类型来自消费者图像，它们源自社交媒体，像这种图像的标注是很重要的。

下面的表说明了数据大小增长的历史。该表显示信息每两年翻一番多，改变着研究人员或者公司的管理方式，通过数据挖掘技术从数据中获取价值，揭示着新的数据挖掘研究。

可扩展性和效率

效率、可扩展性、性能、优化以及实时执行的能力对于几乎所有的算法都是很重要的问题，它对数据挖掘也是如此。数据挖掘算法始终有一些必要的衡量指标或者基准因素。

随着数据量的持续增长，保持数据挖掘算法的效率和可扩展性对于有效地从众多数据存储库或数据流中的海量数据集里提取信息是很有必要的。

从单台机器到广泛分布的数据存储、众多数据集的庞大规模以及数据挖掘方法计算的复杂性，这些都是驱动并行和分布式数据密集型挖掘算法发展的因素。

时间： 2024-12-21 01:11:00

《R语言数据挖掘》----第1章预备知识 1.1大数据的相关文章

R语言数据挖掘第2章频繁模式、关联规则和相关规则挖掘

第2章频繁模式.关联规则和相关规则挖掘本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述购物篮分析混合关联规则挖掘序列数据挖掘高性能算法关联规则挖掘算法可以从多种数据类型中发现频繁项集,包括数值数据和分类数据.根据不同的适用环境,关联规则挖掘算法会略有差异,但大多算法都基于同一个基础算法,即Apriori算法.另一个基础算法称为FP-Gro

《R语言数据挖掘：实用项目解析》——1.3　数据类型转换

1.3 数据类型转换数据类型有很多种,比如数值型.因子型.字符型.逻辑型等.即使数据的格式没有预先处理得很好,用R把一种数据类型转换成另一种也并不困难.在改变变量类型之前,先查看现在的数据类型很关键,这可以用下面的命令实现: 当检查一个数值变量是否为数值型时,输出结果会显示为TRUE或FALSE.其他数据类型也是如此.如果任何数据类型不符合,可以通过以下代码进行转换: 在使用as.character()时,即使是一个逻辑向量,也会由逻辑型变成字符型.如果是一个数值变量,比如变量x1,因为它已经

《R语言数据挖掘》----第2章频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 第2章频繁模式.关联规则和相关规则挖掘本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述购物篮分析混合关联规则挖掘

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R ［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel) 著李洪成许金炜段力辉译图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----1.3 数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.3节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.3 数据挖掘数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的.有效的.意想不到的且可以理解的知识.有些目标与其他科学,如统计学.人工智能.机器学习和模式识别是相同的.在大多数情况下,数据挖掘通常被视为一个算法问题.聚类.分类.关联

《R语言数据挖掘》----1.5　文本挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.5节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.5 文本挖掘文本挖掘基于文本数据,关注从大型自然语言文本中提取相关信息,并搜寻有意义的关系.语法关系以及提取实体或各项之间的语义关联.它也被定义为自动或半自动的文本处理.相关的算法包括文本聚类.文本分类.自然语言处理和网络挖掘. 文本挖掘的特征之一是数字与文本

《R语言数据挖掘》----1.6 网络数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.6节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 网络数据挖掘网络挖掘的目的是从网络超链接结构.网页和使用数据来发现有用的信息或知识.网络是作为数据挖掘应用输入的最大数据源之一. 网络数据挖掘基于信息检索.机器学习(Machine Learning,ML).统计学.模式识别和数据挖掘.尽管很多数据挖掘方法

《R语言数据挖掘》----1.7 为什么选择R

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.7节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.7 为什么选择R R是一种高质量.跨平台.灵活且广泛使用的开源免费语言,可用于统计学.图形学.数学和数据科学.它由统计学家创建,并为统计学家服务. R语言包含了5000多种算法以及全球范围内具备专业知识的数百万用户,并得到了充满活力且富有才华的社区贡献者的支持.

《R语言数据挖掘》----1.15 结果可视化

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.15节,作者［哈萨克斯坦］贝特·麦克哈贝尔(Bater Makhabel),李洪成许金炜段力辉译,更多章节内容可以访问"华章计算机"公众号查看. 1.15 结果可视化可视化是数据描述的图形表示,以便一目了然地揭示复杂的信息,包括所有类型的结构化信息表示.它包括图形.图表.图解.地图.故事板以及其他结构化的图示. 好的可视化结果使你有机会通过专家的眼光来查看数据.可视化结果很美,不仅因为它们的美学设计,而且

猜你喜欢

jbpm-JBPM中任务分配的问题

问题描述 JBPM中任务分配的问题采购系统中,我想要在经理审批完成之后,由经理来将一个采购计划表里面的需要采购的物料手动来选择分配给哪一个采购员去采购,jbpm4.4怎么实现这样的任务分配刚刚 ...

asp.net中实体类对象赋值到表单的实现代码

有一个问题就是 :表单名称和对象的属性名(我是属性赋值你也可以用字段)要保持一样,,有点不安全,不过后台用挺好的,在说填写表单数据后台用的比较多复制代码代码如下: using System; us ...

单俊：太极广告联盟一直在做聚合传播

2007年艾瑞新营销年会在北京世纪金源大饭店正式举行.分众传媒董事局主席江南春.艾瑞咨询集团总裁杨伟庆以及好耶广告CEO朱海龙等业内人士纷纷出席,并发表讲话,对未来新媒体领域内的广告.传播等业务进行了 ...

用FLASH怎么去画动画人物及动漫法则教程

教程经常看到有人在那里说人物头像的转动逐桢动画,太麻烦,现在我教大家自己几年来的心得,怎么去画,让你更全面的了解人物结构,不要去下别人的flash或是图片来临摹了.对于初学者十分上手,一学就会. 经 ...

SEO看似简单但更应该拒绝浮躁的心理

SEO一提起嘛,不外乎就是原创加外链,我相信这个已经是被提烂了的说法了,所以好多人一来就觉得SEO太简单了,不就是写写文章嘛,发发外链嘛,这个谁不会啊,也就是好多人天天没命的写原创,网站为什么还是不收 ...

WSC的结构

SEO之提高页面加载速度手把手教程

一直以来,提高页面的加载速度都被百度和谷歌认可影响网站排名的,但这个如何做呢,估计不少朋友并不了解现在出一个手把手的教程吧,首先得用火狐浏览器,然后下载插件fiebug, ,page speed,然后 ...

Linux系统下误删除文件怎么办

服务器误删了/usr/bin和/usr/sbin目录,然后,从别的地方拷贝这两个目录过来,发现可能很多是链接等非普通文件,可拷贝的时候对链接的处理不知道应加什么参数,所以,一百多兆的东西拷贝了近一个G ...

什么是Excel2000

Excel是Microsoft公司开发的Office办公系列软件的重要组成之一.Excel主要是以表格的方式来完成数据的输入.计算.分析.制表.统计,并能生成各种统计图形. Excel是一个功能强大的 ...

doc怎么转换为XLS

本例所使用的方法简单,就是使用平时我们所使用的复制粘贴即可.但是,有两个地方需要您注意操作,否则就会影响你的工作效率. 第一个就是复制的时候要复制制表符,第二个就是粘贴的时候要粘贴为文本格式,否则会影 ...

使用超线程提升处理器性能

处理器设计师总是关注于不同的性能提升策略,为的是在每个时钟周期内完成尽可能多的计算.更快的频率.更大的数据路径以及不同的指令集方式都提升了性能.但是,性能提升最可能引起误解的一个方面就是超线程对处 ...

Photoshop给草地婚片加上淡美的温馨暖褐色

图片的暗部区域较多,比较适合褐色调.处理的时候只需要简单调出主色,并把暗部调成所需的褐色,再简单美化人物,渲染高光及补色即可. 原图 <点小图查看大图> photoshop教程最终效果 1 ...

win7文件夹搜索在哪？

win7文件夹搜索在哪?有的朋友表示win7系统中的文件夹搜索不见了,这是怎么回事呢?小编带来了相关的解决方法,如果你想使用文件夹搜索却找不到的话,请看下文. 找不到文件夹搜索是因为有一个服务没有 ...

揭秘U盘量产失败的那些缘由

U盘量产失败的缘由: 1.驱动问题: 现在usb设备非常多,而且许多都要安装自已的驱动程序,这也会引起硬件驱动的冲突.比如USBest.安国等量产工具在使用的时候都会安装自已的驱动程序,以便于完成 ...

Mac中快速调出Emoji表情的界面方法

Emoji 键盘的呼出非常简单,只需记住这个快捷键组合即可: Command + Control + Spacebar(空格) 此组合键会呼出一个专门的 Emoji 小键盘(界面),它是较大特殊字 ...

gdi-关于GDI裁剪的问题，在xp中很好，到win7下出现了问题

问题描述关于GDI裁剪的问题,在xp中很好,到win7下出现了问题我画了许多的平行线然后想用已有的路径裁剪这些线,在Xp中裁剪没有问题, 但是在win7下出现有些线没有裁剪成功的现象,如下图所示 ...

AppleWatch开发入门七——watchOS中通知的应用

AppleWatch开发入门七--watchOS中通知的应用一.引言在iOS系统中,支持的通知有两种类型:本地通知和远程通知.本地通知多用于计时类通知,远程的又称推送,多用于一些提 ...

倒计时一天坚果智能影院让家用投影投出你的新生活主义

连续几日坚果智能影院新品发布会倒数时海报的刷屏,让大家对发布会的期待到达了顶点,而新品的神秘面纱也终于要在明天,也就是9月12日下午2点的北京中国电影导演中心正式被揭开了. 而这次坚果智能影院新品发布 ...

指引大数据未来发展方向的九大真理

笔者总会时不时沉浸在对大数据原则的思索当中,这里讨论的并不是Hadoop与关系数据库或者Mahout与Weka的对抗,而是更具根源性的智慧--将数据作为"新时代货币"的思维方式 ...

MySQL 5.5升级5.6 单实例操作

MySQL 5.5升级5.6 单实例同类可参考: 环境:RHEL 6mysql旧版本:mysql-5.5.28mysql新版本:mysql-5.6.26安装方式:源码编译不习惯用rpm包来安装m ...

急，急，急，，，，，安卓开发json数据解析，问题描述如下，我该怎么解决

问题描述急,急,急,,,,,安卓开发json数据解析,问题描述如下,我该怎么解决我的json数据是这样的: {"产品1":["件","箱" ...

怎么用申请QQ号码？电脑申请QQ号码方法

1.申请QQ号那里也不用去只要输入 http://www.qq.com 点击进入. 2.然后在打开的QQ网站我们点击右边有一个QQ,点击进入之后我们会在下界面右下角有一个"注册QQ号&quo ...

JVM深入学习笔记六-JVM类加载

类加载过程主要分为了加载->链接(验证->准备->解析)->初始化->使用->卸载这几个阶段. 加载三件事 1. 通过类的权限定名称来获取定义此类的二进制字节 ...

怎么办啊-写了一个Qt界面，然后现在想把做好的openinventor显示模块嵌进去

问题描述写了一个Qt界面,然后现在想把做好的openinventor显示模块嵌进去写了一个Qt界面,然后现在想把做好的openinventor显示模块嵌进去,都是在VS2010下面做的解决方案 ...

《MapReduce设计模式》一1.1　设计模式

1.1 设计模式近些年来,设计模式使开发者的工作变得更轻松.这些设计模式为解决问题提供了可复用的通用方法,开发者在遇到问题时可以花更少的时间来思考解决问题的策略,从而有更多的时间用来迎接新的挑战.与 ...

图像处理-一个图像识别的问题（判断物体是否在范围内）

问题描述一个图像识别的问题(判断物体是否在范围内) 最近做一个项目涉及到一个人因的可视性问题,前面的不说了,得到一个图像,判断零件是否在一个圆内,请问大神这个判断怎么实现解决方案首先要看看你的零 ...

《Python 3程序开发指南（第2版•修订版）》——1.4 总结

1.4 总结在本章中,我们学习了如何编辑并运行Python程序,并讲解了几个虽然短小但完整的程序.本章的大部分在于讲解足以编写实际Python程序的8个要素--Python的"关键要素&q ...

并行计算需要专门的计算机吗，我是外行

问题描述本研究选用了MUMPS(aMUltifrontalMassivelyParallelsparsedirectSolver)软件包,基于fortran90编写,并且有C语言的接口,可以实现稀疏 ...

[转帖]目前CRM模板大赛上线作品简介

问题描述作品一:投资项目管理系统作品背景:投资项目管理信息化是当前我国国民经济与社会发展中一个十分重要的战略性问题,也是项目管理学术领域应该关注和研究的重大前沿问题.目前,大部分企业投资项目大多是跨 ...

挑战失败是怎么回事啊？运行都正常

问题描述题目详情高斯在上小学时发明了等差数列求和公式:1+2+..+100=5050.现在问题在于给你一个正整数n,问你他可以表示为多少种连续正整数之和?(自身也算).输入格式:多组数据,每组数据一 ...

热搜

《R语言数据挖掘》----第1章 预备知识 1.1大数据

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.1节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成 许金炜 段力辉 译，更多章节内容可以访问“华章计算机”公众号查看。

第1章