《数据科学:R语言实现》——3.4 使用日期格式

3.4 使用日期格式

把每一个数据属性转换成合适的数据类型之后,我们可以看到employees和salaries中的一些属性是日期类型的。因此,我们可以计算雇员的出生日期和当前日期之间的年份数,进而得出每个雇员的年龄。这里我们会介绍如何使用内置日期函数和lubridate程序包来操作日期格式的数据。

准备工作

按照之前的教程,把导入数据的每个属性转换成正确的数据类型。并且,你需要按照3.2节“重命名数据变量”中的步骤,命名employees和salaries数据集的列名。

实现步骤

执行下列步骤,使用employees和salaries中的日期格式数据。

1.我们可以使用下列代码,加上或者减去日期格式属性中的一些天数:

2.我们可以使用下列代码,获取hire_date和birth_date之间的时间间隔:

3.除了得到以天为单位的时间间隔,我们还可以使用函数difftime获取以周为单位的时间间隔:

4.除了内置的日期操作函数,我们还可以安装和加载lubridate程序包来操作日期:

5.然后,我们可以使用函数ymd把日期数据转换成POSIX格式:

6.接着,我们可以使用函数as.period查看hire_date和birth_date之间的时长:

7.我们也可以使用函数year获取时间间隔:

8.并且,我们可以使用函数now获取当前日期:

9.最后,我们可以使用下列代码计算每一个雇员的年龄:

运行原理

完成上一个教程之后,employees数据和salaries数据应该完成了重命名,每一个属性也应该转换成了合适的数据类型。由于一些属性是日期类型的,我们可以使用日期函数来计算属性之间的时间间隔。

日期类型的数据支持算术运算,我们可以加上或减去一些天数。因此,我们首先展示了可以给hire_date加上30天。然后我们可以检查一下受雇日期是否真的加了30天。然后,我们可以计算birth_date属性和hire_date属性之间以天为单位的时间间隔,进而找出雇员开始在公司工作时的年龄。然而,减法操作只能告诉我们天数间隔,我们需要更多计算方法,支持除天数以外的时间间隔度量。所以,我们可以使用函数difftime确定不同单位下的时间间隔(例如,小时、天和周)。虽然difftime提供了更多的度量选择,但我们还需要更多计算来得到以月和年为单位的时间间隔。

为了简化日期计算,我们可以使用便捷的日期运算程序包lubridate。因为数据是年-月-日的格式,我们首先可以使用函数ymd把数据转换成POSIX格式。然后,我们可以使用区间函数计算hire_date和birth_date之间的时间跨度。接着,我们可以使用函数as.period计算时间跨度的长度。这可以让我们使用函数year获取每一个雇员生日和受雇日之间的年份数。

最后,为了计算雇员的年龄,我们可以使用函数now获取当前时间。然后,使用interval获取雇员生日和当前日期之间的时间区间。利用这些信息,我们最终可以使用函数year获取雇员的真实年龄。

更多技能

在使用lubridate程序包(版本1.3.3)的时候,你可能会收到下列报错信息:

这个报错信息是由于本地配置问题而产生的。你可以通过设定locale为English_United States.1252来解决:

时间: 2024-10-21 09:31:21

《数据科学:R语言实现》——3.4 使用日期格式的相关文章

《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.3 数据清洗和变量格式化

2.3 数据清洗和变量格式化 本节我们考虑如何将特征矩阵列表menResMat转换为合适的格式以便于数据分析.目前,这些数据值都是字符型,这对于诸如找到参赛者年龄的中位数这样的数据分析是无益的.但是,我们可以利用as.numeric()函数很容易地将年龄转换为数值型.我们需要将整个矩阵都转换为数值型矩阵吗?事实并非如此,比如将参赛者的名字转换为数值型就毫无意义.为此,我们需要创建一个可以允许拥有不同类型变量的数据框.现在我们有6个变量:参赛者姓名.居住地.年龄以及3种类型的时间.正如刚才所说,我

2013年数据分析、数据挖掘、数据科学使用语言排行榜

 最受欢迎的语言仍然是R( KDnuggets 读者中有61%用户在用),python(39%),SQL(37%).SAS仍然稳定在20%之间.增长最快是:Pig/Hive/Hadoop为基础的语言.R.SQL,同时perl, C/C++, 与Unix 在下降.同时我们发现,R与python用户存在一定的重叠. 之前的KDnuggets的调查主要是关注:统计与分析软件,但有时候一个全面与强大的编程语言是需要的.这也是最近一次的KDnuggets调查关注的重点,我们咨询: 在2013年中,什么样的

手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

前言 网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家开辟了可能性的新天地.我非常相信网页爬取是任何一个数据科学家的必备技能.在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力.有了本文的帮助,您定会克服这个困难. 网上大多数的可用数据并不容易获取.它们以非结构化的形式(HTML格式)表示,并且不能下载.因此,这便需要

一份语言选择指南带你玩数据科学,选出你心中支持的语言

更多深度文章,请关注:https://yq.aliyun.com/cloud 随着大数据时代的到来,网络每天会产生大量的数据,一些行业会对这些数据进行分析并协助企业不断地发展新业务.创建运营模式等,比如电子商务.推荐系统等.那么谁对这些大数据进行分析呢?对应的工作领域是数据科学(Data Science),该领域需要结合先进的统计知识.定量分析能力和编程能力.涉及到编程,大家都会面临一个问题,有太多的编程语言可供选择,那么哪些编程语言适合数据科学领域呢?虽然没有正确答案,但想成为一名成功的数据科

《数据科学实战手册(R+Python)》一第2章 汽车数据的可视化分析(R)

第2章 汽车数据的可视化分析(R) 数据科学实战手册(R+Python) 本章涵盖如下内容. 获取汽车燃料效率数据 为了你的第一个项目准备好R 将汽车燃料效率数据导入R 探索和描述燃料效率数据 进一步分析汽车燃料效率数据 研究汽车的产量以及车型 简介 本书介绍的第一个项目是分析汽车燃料经济数据.我们首先用R对该数据集进行分析.R常常被称为数据科学通用语言,因为它是目前最流行的统计和数据分析语言.在本书前半部分的各个章节中,你将会看到R在数据处理.建模.可视化方面的过人之处,并开发一些有用的脚本,

为何Python攀上数据科学巅峰?调查显示Python超越R

根据KDnuggets 2017年最新调查,Python生态系统已经超过了R,成为了数据分析.数据科学与机器学习的第一大语言.本文对KDnuggets的此项调查结果做了介绍,并补充了一篇文章讲解为何Python能成为数据科学领域最受欢迎的语言. Python vs R:2017 年调查结果 近日,KDnuggets 发起了一项调查,问题是: 你在 2016 年到现在是否使用过 R 语言.Python(以及它们的封装包),或是其他用于数据分析.数据科学与机器学习的工具? 预料之内的是,Python

R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力.特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上. R语言是主要用于统计分析.绘图的语言和操作环境.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发.(也因此称为R)现在由"R开发核心团队"负责开发.R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源

为什么R语言是学习数据分析的第一选择

刚开始学习数据科学的人都会面对同一个问题: 不知道该先学习哪种编程语言. 不仅仅是编程语言,像Tableau,SPSS等软件系统也是同样的情况.有越来越多的工具和编程语言,很难知道该选择哪一种. 事实是,你的时间有限.学习一门新的编程语言相当于一项巨大的投资,因此在选择语言时需要有战略性. 很明显,一些语言会给你的投资带来很高的回报(付出的时间和金钱投资).然而其他语言可能是你每年只用几次的纯粹辅助工具. 我给你的建议就是:先学习R语言 专注于一种语言 在说明为什么你应该学习R语言之前,我想强调

R语言,如何根据row的index提取矩阵?

问题描述 R语言,如何根据row的index提取矩阵? 已知1.targetmatrix <- matrix(1:100, nrow = 20),2.targetindex <- c(2, 8, 12, 15, 19) [,1] [,2] [,3] [,4] [,5] [1,] 1 21 41 61 81 [2,] 2 22 42 62 82 [3,] 3 23 43 63 83 [4,] 4 24 44 64 84 [5,] 5 25 45 65 85 [6,] 6 26 46 66 86

《R的极客理想—工具篇》—— 2.1 R语言时间序列基础库zoo

2.1 R语言时间序列基础库zoo 问题 R语言怎么处理时间序列数据? 引言 时间序列分析是一种动态数据处理的统计方法,通过对时间序列数据的分析,我们可以感觉到世界正改变着什么!R语言作为统计分析的利器,对时间序列处理有着强大的支持.在R语言中,单独为时间序列数据定义了一种数据类型zoo,zoo是时间序列的基础,也是股票分析的基础.本节将介绍zoo库在R语言中的结构和使用. 2.1.1 zoo包介绍 zoo是一个R语言类库,zoo类库中定义了一个名为zoo的S3类型对象,用于描述规则的和不规则的