《R语言数据分析》——1.6 导入Excel电子表格

本节书摘来自华章出版社《R语言数据分析》一书中的第1章,第1.6节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问“华章计算机”公众号查看。

1.6 导入Excel电子表格

在学术界和商业界,除了CSV文件,Excel的xls(或xlsx,最近的一种新称呼)应该是应用最为广泛的进行存储和交换少量数据最为通用的数据格式。它最初源自Microsoft公司独有的二进制文件格式,对其文档的说明非常多(xls指南长达1100页,50M),但是对多种表格、宏及公司的导入不直接,目前为止也是这样。本节将仅探讨与Excel交互的与平台无关的R包。

一种选择是使用前面介绍过的RODBC包,与Excel驱动器交互,查询Excel电子表格。还可以借助第三方工具来访问Excel数据,例如使用Perl自动将Excel文件转换为CSV文件,然后再通过gdata包的read.xls函数导入到R。但有时候在Windows安装Perl过程比较繁琐,因此更多的时候,在Windows平台上人们会使用RODBC。

一些平台独立的基于Java的解决方案也提供了对Excel文件的读写操作,特别是对xlsx文件和Off?ice Open XML文件格式。在CRAN上提供了xlConnect和xlsx两个包来分别读取Excel 2007 以及97/2000/XP/2003文件。这两个包都使用了Apache POI Java API项目,需要主动维护。可以运行在任何支持Java的平台上,而不需要再另外安装Microsoft Excel或Off?ice程序。

另一方面,如果你不希望程序依赖于Perl或Java,则可以使用最新发布的openxlsx包。Hadley Wickham也发布了一个功能相似的包,但是稍微有所变化:readxl包能够读(不能写)xls和xlsx格式的文件。

记住:要为自己的应用选择最合适的工具!例如,如果要读取Excel文件而不希望依赖其他程序,我会选择readxl包,但如果要写入Excel 2003电子表格,并且要进行单元运算或者使用其他一些高级功能,有可能我们不能保存Java依赖关系,就应该选择xlConnect或xlsx包,而非openxlsx包。

时间: 2024-10-01 05:24:08

《R语言数据分析》——1.6 导入Excel电子表格的相关文章

《R语言数据分析》——第2章 从Web获取数据 2.1 从Internet导入数据集

本节书摘来自华章出版社<R语言数据分析>一书中的第2章,第2.1节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 从Web获取数据 实际项目中,经常会碰见所需数据不能从本地数据库或硬盘中获取而需要通过Internet获得的情况.此时,可以要求公司的IT部门或数据工程师按照下图所示的流程将原有的数据仓库扩展,从网络获取处理所需要的数据再倒入公司自己的数据库: 如果公司还没有建立ETL系统(抽取.转换装

《R语言数据分析》——导读

前 言 自20多年前发源于学术界以来,R语言已经成为统计分析的通用语言,活跃于众多产业领域.目前,越来越多的商业项目开始使用R,兼之R用户开发了数以千计易于上手的开发包,都使得R成为数据分析工程师及科学家最常用的工具. 本书将帮助读者熟悉R语言这一开源生态系统,并介绍一些基本的统计背景知识,以及一小部分相关的数学知识.我们将着重探讨使用R语言解决实际的问题. 由于数据科学家在数据的采集.清洗及重构上将耗费大量时间,因此本书首先将通过第一手实例来重点探讨从文件.数据库以及在线资源中导入数据的方法,

《R语言数据分析》——2.3 从HTML表中读取数据

本节书摘来自华章出版社<R语言数据分析>一书中的第2章,第2.3节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 2.3 从HTML表中读取数据 万维网上传统的文本和数据以HTML页面为主,我们经常可以从例如HTML表找到一些有意思的信息,很容易就能通过复制和粘贴将数据转换成Excel电子表格,保存在磁盘上,稍后再导入到R中.但是这个过程比较费时间,也有点枯燥,因此可以考虑进行自动化处理. 可以借助前面提到

《R语言数据分析》——2.5 使用R包与数据源API交互

本节书摘来自华章出版社<R语言数据分析>一书中的第2章,第2.5节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 2.5 使用R包与数据源API交互 尽管我们能够读取HTML表格.CSV文件.JSON和XML数据,甚至某些HTML的原始文档,然后实现数据的存储,但花太多时间用来开发我们自己的工具意义并不大,除非我们再没有其他选择.因此,通常我们应该首先快速了解清楚Web Technologies以及Serv

《R语言数据分析》——第3章 数据筛选和汇总 3.1 去掉多余的数据

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.1节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 第3章 数据筛选和汇总 当我们从平面文件或数据库(第1章),或直接通过某些API从Web(第2章)完成数据导入后,在开始实际的数据分析操作之前,经常会有必要对原始数据展开聚集.转换及筛选操作. 本章,我们将关注以下内容: 对数据框对象进行行或列筛选 对数据进行汇总和聚集 除了基础的R方法,掌握通

《R语言数据分析》——1.7 小结

本节书摘来自华章出版社<R语言数据分析>一书中的第1章,第1.7节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 1.7 小结 本章重点探讨了一些乏味但是很重要的工作,这些工作我们可能每天都要完成.对于每个数据科学项目而言,数据导入一定是第一步,因此要掌握数据分析就应该从如何有效地将数据导入到R会话中开始. 但是某种程度上,有效是个很含糊的概念:从技术角度出发,数据装载应该快速以免浪费我们的时间,但同时花几

《R语言数据分析》——2.2 其他流行的在线数据格式

本节书摘来自华章出版社<R语言数据分析>一书中的第2章,第2.2节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 2.2 其他流行的在线数据格式 在Web上数据通常采用XML或JSON两种格式存放,因为这两类文件都使用了人类可以理解的数据格式,从程序开发的角度而言也非常容易处理,同时也适合处理任意类型的层次化数据结构,而不像CSV文件一样仅能处理简单的表格数据. JSON最初源于JavaScript对象标识

《R语言数据分析》——3.3 测试

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.3节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 3.3 测试 正如在前述章节中讨论过的内容一样,借助microbenchmark包,我们可以在一台机器上重复执行若干遍函数,以获得一些可重现的性能测试结果. 现在,需要先定义作为测试基准的函数,以下一些函数都是从前面样例中挑选出来的: 前面已经介绍过dplyr包的summarise函数需要耗费一

导入Excel电子表格数据到SQL Sever数据库的另一种方法

excel|电子表格|数据|数据库 上次给大家提供了一个从Excel电子表格导入到SQL Server数据库的方法,前提条件是机器上要装有Office 里的Excel组件.今天再为大家提供另一种方法:不需要安装Excel也可以导入到我们的SQL Server数据库.首先用SQL Server自身的数据转换功能把Excel导入到 SQL Server中,下面的示例中导入后的表名为:Sheet1$,然后我们再从这个库中把数据导入到我们自己的系统的数据表中.(这样一来就是2个SQL Server表中的