《数据科学:R语言实现》——3.5 添加新的记录

3.5 添加新的记录

熟悉数据库的读者,可能已经知道如何执行insert操作,给数据集添加一条新的记录。你也可以使用alter操作给表添加新的一列(属性)。在R中,你也可以执行insert和alter操作,但是要简单得多。我们会在本教程中介绍函数rbind和cbind,以便可以简单地使用R给当前数据集添加新的记录或者新的属性。
准备工作
按照3.3节“转换数据类型”教程,把导入数据的每个属性转换成合适的数据类型。同时按照3.2节“重命名数据变量”中的步骤,命名employees和salaries数据集的列名。
实现步骤
执行下列步骤,给数据集添加新的记录或者新的属性。
1.首先,使用rbind给employees添加新的记录:

运行原理
和数据库操作类似,我们可以根据数据集的样式(属性个数和每个属性的数据类型)给数据框添加新的记录。这里,我们首先介绍了如何使用函数rbind给数据框添加新的记录。由于雇员数据集有6列,我们可以使用函数rbind给数据集添加含有6个值的记录。在第一列中,emp_no是整型,所以我们不需要把输入值放在单引号中。对于属性first_name和last_name,因为已经把它们的类型转换成字符类型,所以我们可以自由地输入任何字符串作为一个值。对于最后一个gender属性,它是因子类型的,我们只能输入M或F作为值。
除了给目标数据集添加新的记录,我们还可以使用函数cbind添加新的变量。要达到这个目的,我们可以在调用cbind的时候给变量指定一个默认值。这里我们使用NA作为新的position属性的默认值 。我们也可以把其他列的计算结果拿来作为新的变量。在这个过程中,我们首先利用当前日期和和雇员的生日计算每个雇员的年龄。然后,我们使用美元符号把计算结果指定给新的变量age。除了使用美元符号指定新的变量,我们也可以使用函数transform,为employees数据集创建age、position和marital变量。
更多技能
除了使用美元符号和函数transform,我们也可以使用函数with创建新的变量:

时间: 2025-01-21 07:15:19

《数据科学:R语言实现》——3.5 添加新的记录的相关文章

《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.3 数据清洗和变量格式化

2.3 数据清洗和变量格式化 本节我们考虑如何将特征矩阵列表menResMat转换为合适的格式以便于数据分析.目前,这些数据值都是字符型,这对于诸如找到参赛者年龄的中位数这样的数据分析是无益的.但是,我们可以利用as.numeric()函数很容易地将年龄转换为数值型.我们需要将整个矩阵都转换为数值型矩阵吗?事实并非如此,比如将参赛者的名字转换为数值型就毫无意义.为此,我们需要创建一个可以允许拥有不同类型变量的数据框.现在我们有6个变量:参赛者姓名.居住地.年龄以及3种类型的时间.正如刚才所说,我

手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

前言 网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家开辟了可能性的新天地.我非常相信网页爬取是任何一个数据科学家的必备技能.在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力.有了本文的帮助,您定会克服这个困难. 网上大多数的可用数据并不容易获取.它们以非结构化的形式(HTML格式)表示,并且不能下载.因此,这便需要

2013年数据分析、数据挖掘、数据科学使用语言排行榜

 最受欢迎的语言仍然是R( KDnuggets 读者中有61%用户在用),python(39%),SQL(37%).SAS仍然稳定在20%之间.增长最快是:Pig/Hive/Hadoop为基础的语言.R.SQL,同时perl, C/C++, 与Unix 在下降.同时我们发现,R与python用户存在一定的重叠. 之前的KDnuggets的调查主要是关注:统计与分析软件,但有时候一个全面与强大的编程语言是需要的.这也是最近一次的KDnuggets调查关注的重点,我们咨询: 在2013年中,什么样的

《数据科学:R语言实现》——导读

前 言 大数据.物联网.人工智能已经变成近几年最热门的科技流行语.尽管大家用很多名词去定义这些技术,但是共通的思想是它们都是数据驱动的.人们并不满足于简单地拥有数据,因为发现其中的价值才是最本质的.因此数据科学家已经开始关注如何从原始数据中洞悉深层价值. 数据科学已经变成学术界和产业界最流行的话题.但是数据科学是一门非常宽泛的学科,学会掌握数据科学注定很有挑战性.初学者必须学习如何准备.处理.聚合和可视化数据.而更多高级技能包括机器学习,挖掘各种数据格式(文本.图像和视频),以及最重要的-使用数

《数据科学:R语言实现》——第3章 数据预处理和准备 3.1 引言

第3章 数据预处理和准备 3.1 引言 在之前的章节中,我们介绍了如何把各种来源的数据整合在一起.然而,只是采集数据并不够,还需要确保所采集数据的质量.如果数据的质量不高,分析的结果可能会由于有偏采样或缺失数据而误导大家.而且,如果采集的数据没有良好的结构化和形态,你会很难进行数据关联和分析.因此数据预处理和准备是数据分析前的基础性工作. 熟悉SQL操作的读者可能已经理解如何使用数据库来处理数据.例如,SQL允许用户使用插入操作添加新的记录,使用更新操作修改数据,使用删除操作移除记录.但是,我们

《数据科学:R语言实现》——3.3 转换数据类型

3.3 转换数据类型 如果我们在数据导入阶段不指定数据类型,R会自动地给导入的数据集分配一个数据类型.但是,如果分配的数据类型和事实不符,我们可能会在后续的数据操作中遇到困难.因此数据类型转换是预处理阶段的基础性任务. 准备工作 完成之前的教程,导入employees.csv和salaries.csv给R进程.你必须给两个数据集指定了列名,以便执行下面的步骤. 实现步骤 执行下列步骤,转换数据类型. 1.首先,使用函数class查看每个属性的数据类型: 2.你也可以使用函数str查看所有属性的数

《数据科学:R语言实现》——3.1 引言

3.1 引言 在之前的章节中,我们介绍了如何把各种来源的数据整合在一起.然而,只是采集数据并不够,还需要确保所采集数据的质量.如果数据的质量不高,分析的结果可能会由于有偏采样或缺失数据而误导大家.而且,如果采集的数据没有良好的结构化和形态,你会很难进行数据关联和分析.因此数据预处理和准备是数据分析前的基础性工作.熟悉SQL操作的读者可能已经理解如何使用数据库来处理数据.例如,SQL允许用户使用插入操作添加新的记录,使用更新操作修改数据,使用删除操作移除记录.但是,我们并不需要把采集的数据放到数据

一份语言选择指南带你玩数据科学,选出你心中支持的语言

更多深度文章,请关注:https://yq.aliyun.com/cloud 随着大数据时代的到来,网络每天会产生大量的数据,一些行业会对这些数据进行分析并协助企业不断地发展新业务.创建运营模式等,比如电子商务.推荐系统等.那么谁对这些大数据进行分析呢?对应的工作领域是数据科学(Data Science),该领域需要结合先进的统计知识.定量分析能力和编程能力.涉及到编程,大家都会面临一个问题,有太多的编程语言可供选择,那么哪些编程语言适合数据科学领域呢?虽然没有正确答案,但想成为一名成功的数据科

《数据科学实战手册(R+Python)》一第2章 汽车数据的可视化分析(R)

第2章 汽车数据的可视化分析(R) 数据科学实战手册(R+Python) 本章涵盖如下内容. 获取汽车燃料效率数据 为了你的第一个项目准备好R 将汽车燃料效率数据导入R 探索和描述燃料效率数据 进一步分析汽车燃料效率数据 研究汽车的产量以及车型 简介 本书介绍的第一个项目是分析汽车燃料经济数据.我们首先用R对该数据集进行分析.R常常被称为数据科学通用语言,因为它是目前最流行的统计和数据分析语言.在本书前半部分的各个章节中,你将会看到R在数据处理.建模.可视化方面的过人之处,并开发一些有用的脚本,