《数据科学:R语言实现》——第3章 数据预处理和准备 3.1 引言

第3章

数据预处理和准备

3.1 引言

在之前的章节中,我们介绍了如何把各种来源的数据整合在一起。然而,只是采集数据并不够,还需要确保所采集数据的质量。如果数据的质量不高,分析的结果可能会由于有偏采样或缺失数据而误导大家。而且,如果采集的数据没有良好的结构化和形态,你会很难进行数据关联和分析。因此数据预处理和准备是数据分析前的基础性工作。

熟悉SQL操作的读者可能已经理解如何使用数据库来处理数据。例如,SQL允许用户使用插入操作添加新的记录,使用更新操作修改数据,使用删除操作移除记录。但是,我们并不需要把采集的数据放到数据库中,R已经提供了更强大和更方便的预处理函数和程序包。在本章中,我们会展示在R中执行数据预处理是如此的简单。

时间: 2024-09-20 05:33:54

《数据科学:R语言实现》——第3章 数据预处理和准备 3.1 引言的相关文章

《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.3 数据清洗和变量格式化

2.3 数据清洗和变量格式化 本节我们考虑如何将特征矩阵列表menResMat转换为合适的格式以便于数据分析.目前,这些数据值都是字符型,这对于诸如找到参赛者年龄的中位数这样的数据分析是无益的.但是,我们可以利用as.numeric()函数很容易地将年龄转换为数值型.我们需要将整个矩阵都转换为数值型矩阵吗?事实并非如此,比如将参赛者的名字转换为数值型就毫无意义.为此,我们需要创建一个可以允许拥有不同类型变量的数据框.现在我们有6个变量:参赛者姓名.居住地.年龄以及3种类型的时间.正如刚才所说,我

《Python数据科学实践指南》——第0章 发现、出发 0.1 何谓数据科学

第0章 发现.出发 最近一年里,知乎社区有不少朋友邀请我回答关于数据挖掘的问题,其中提问最多的是关于"如何改行做数据挖掘".我想他们之所以邀请我回答这类问题,不是因为我做数据挖掘做得好,而是好奇我是如何改行做数据挖掘的?说来也巧,我本科是学电子的,研究生是学控制的,而我的职业理想是成为一个"先知",但我并不知道如何才能实现这一职业理想.自公元632年人类最后一位先知默罕默德去世之后,将近1400年没人做先知了,既没有人可以指导我,也没有可以效仿的对象.2011年到2

R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力.特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上. R语言是主要用于统计分析.绘图的语言和操作环境.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发.(也因此称为R)现在由"R开发核心团队"负责开发.R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源

《R语言数据挖掘》----1.13 数据降维

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.13节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.13 数据降维 在分析复杂的多变量数据集时,降低维度往往是必要的,因为这样的数据集总是以高维形式呈现.因此,举例来说,从大量变量来建模的问题和基于定性数据多维分析的数据挖掘任务.同样,有很多方法可以用来对定性数据进行数据降维. 降低维度的目标就是通过两个或者多

2013年数据分析、数据挖掘、数据科学使用语言排行榜

 最受欢迎的语言仍然是R( KDnuggets 读者中有61%用户在用),python(39%),SQL(37%).SAS仍然稳定在20%之间.增长最快是:Pig/Hive/Hadoop为基础的语言.R.SQL,同时perl, C/C++, 与Unix 在下降.同时我们发现,R与python用户存在一定的重叠. 之前的KDnuggets的调查主要是关注:统计与分析软件,但有时候一个全面与强大的编程语言是需要的.这也是最近一次的KDnuggets调查关注的重点,我们咨询: 在2013年中,什么样的

《Python数据科学实践指南》——第1章 Python介绍 1.1 Python的版本之争

第1章 Python介绍 本书主要介绍数据科学所使用的工具,但因为每一种语言都有自己的生态系统,而笔者多用Python,所以本书主要会从Python的角度来介绍这些工具.阅读本书的读者,不管之前的基础如何,如果对Python这门编程语言有一定的了解,将能更好地掌握书中内容.可能有很多读者曾经在学校里学过C/C++或是VB,又或者听说过Java.PHP等这样广泛使用的编程语言,初闻Python的时候可能会对这个名字略感陌生,不过这一点并不能阻碍Python成为数据科学领域的"一等公民".

《R语言数据挖掘》----1.12 数据集成

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.12节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.12 数据集成 数据集成将多个数据源中的数据合并,形成一个一致的数据存储.其常见的问题如下: 异构数据:这没有普遍的解决方案. 不同的定义(different definition):这是内在的,即相同的数据具有不同的定义,如不同的数据库模式. 时间一致性:这

《R语言数据挖掘》----1.14 数据变换与离散化

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.14节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.14 数据变换与离散化 根据前面的内容,我们可以知道总有一些数据格式最适合特定的数据挖掘算法.数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入. 1.14.1 数据变换 数据变换程序将数据变换成可用于挖掘的恰当形式.它

R语言数据挖掘第2章 频繁模式、关联规则和相关规则挖掘

第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘 序列数据挖掘 高性能算法 关联规则挖掘算法可以从多种数据类型中发现频繁项集,包括数值数据和分类数据.根据不同的适用环境,关联规则挖掘算法会略有差异,但大多算法都基于同一个基础算法,即Apriori算法.另一个基础算法称为FP-Gro

《Python数据科学实践指南》——第1章Python介绍

第1章Python介绍本书主要介绍数据科学所使用的工具,但因为每一种语言都有自己的生态系统,而笔者多用Python,所以本书主要会从Python的角度来介绍这些工具.阅读本书的读者,不管之前的基础如何,如果对Python这门编程语言有一定的了解,将能更好地掌握书中内容.可能有很多读者曾经在学校里学过C/C++或是VB,又或者听说过Java.PHP等这样广泛使用的编程语言,初闻Python的时候可能会对这个名字略感陌生,不过这一点并不能阻碍Python成为数据科学领域的"一等公民".从本