《R语言数据分析》——1.5 从其他统计系统导入数据

1.5 从其他统计系统导入数据

在最近一些学术项目中,我的任务是在R中实现一些金融模型。我要分析的样本数据是Stata的.dta文件。对于工作在学校的咨询工程师,在没接触过Stata的前提下,要理解其他统计软件所用的二进制文件格式可能有些困难,但sta文件的说明可从http://www.stata.com/help.cgi?dta获得,一些Core R团队的成员也在foreign包中加入了支持.dta的函数read.dta。

尽管如此,装载(写入)Stata——或者类似SPSS、SAS、Weka、Minitab、Octave或dBase文件—在R中并不容易。请参考相关包的帮助文档,或者参考《R Data Import/Export》手册,了解所有R支持的文件格式以及样例内容,访问地址为:http://cran.r-project.org/doc/manuals/rrelease/R-data.html#Importing-from-other-statistical-systems。

时间: 2024-08-31 01:24:36

《R语言数据分析》——1.5 从其他统计系统导入数据的相关文章

《R语言数据分析》——第2章 从Web获取数据 2.1 从Internet导入数据集

本节书摘来自华章出版社<R语言数据分析>一书中的第2章,第2.1节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 从Web获取数据 实际项目中,经常会碰见所需数据不能从本地数据库或硬盘中获取而需要通过Internet获得的情况.此时,可以要求公司的IT部门或数据工程师按照下图所示的流程将原有的数据仓库扩展,从网络获取处理所需要的数据再倒入公司自己的数据库: 如果公司还没有建立ETL系统(抽取.转换装

《R语言数据分析与挖掘实战》——3.2 数据特征分析

3.2 数据特征分析 对数据进行质量分析以后,接下来可通过绘制图表.计算某些特征量等手段进行数据的特征分析. 3.2.1 分布分析 分布分析能揭示数据的分布特征和分布类型.对于定量数据,欲了解其分布形式是对称的还是非对称的.发现某些特大或特小的可疑值,可做出频率分布表.绘制频率分布直方图.绘制茎叶图进行直观地分析:对于定性数据,可用饼形图和条形图直观地显示分布情况. 1.定量数据的分布分析 对于定量变量,选择"组数"和"组宽"是做频率分布分析时最主要的问题,一般按照

《R语言数据分析》——导读

前 言 自20多年前发源于学术界以来,R语言已经成为统计分析的通用语言,活跃于众多产业领域.目前,越来越多的商业项目开始使用R,兼之R用户开发了数以千计易于上手的开发包,都使得R成为数据分析工程师及科学家最常用的工具. 本书将帮助读者熟悉R语言这一开源生态系统,并介绍一些基本的统计背景知识,以及一小部分相关的数学知识.我们将着重探讨使用R语言解决实际的问题. 由于数据科学家在数据的采集.清洗及重构上将耗费大量时间,因此本书首先将通过第一手实例来重点探讨从文件.数据库以及在线资源中导入数据的方法,

《R语言数据分析》——3.5 小结

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.5节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 3.5 小结 本章,我们介绍了一些简单有效的应用于数据筛选和汇总的方法,也给出了筛选数据集行列数据的一些案例,并探讨了如何对数据进行汇总以进行进一步的分析.我们基本介绍完了绝大多数能够实现这些任务的最流行的方法,并在一个可重复的样例和测试平台上对这些方法的性能进行了比较. 在下一章节,我们将继续

《R语言数据分析》——2.5 使用R包与数据源API交互

本节书摘来自华章出版社<R语言数据分析>一书中的第2章,第2.5节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 2.5 使用R包与数据源API交互 尽管我们能够读取HTML表格.CSV文件.JSON和XML数据,甚至某些HTML的原始文档,然后实现数据的存储,但花太多时间用来开发我们自己的工具意义并不大,除非我们再没有其他选择.因此,通常我们应该首先快速了解清楚Web Technologies以及Serv

《R语言数据分析》——3.2 聚集

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.2节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 3.2 聚集 最直接的数据汇总方法应该是调用stats包的aggregate函数,该函数能支持以下我们期望的功能:通过分组变量将数据划分成不同的子集,并分别对这些子集进行统计汇总.调用aggregate函数的最基本方法之一是传递待聚集的数值向量,以及一个因子变量,该因子变量将定义参数FUN的值,

《R语言数据分析与挖掘实战》——第2章 R语言简介 2.1 R安装

第2章 R语言简介 R语言是一种为统计计算和图形显示而设计的语言环境,是贝尔实验室(Bell Laboratory)的Rick Becker.John Chambers和Allan Wilks开发的S语言的一种实现,提供了一系列统计和图形显示工具.它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护.它具有下列优势: 1)作为一个免费的统计软件,R可运行于多种平台之上,包括Windows.UNIX.MacOS和Linux. 2)R可以轻松地从各种类型的数据源导入数据,包括文本文

《R语言数据分析》——3.4 汇总函数

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.4节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 3.4 汇总函数 正如我们之前讨论过的一样,所有聚集函数都能对数据子集应用任意合法的R函数.一些R开发包为用户提供了非常方便的实现,而有少部分函数也确实要求读者要理解整个开发包的内容.特定的语法格式以及参数调优方法. 以上这些内容更深入的讨论,请参考本书第4章,以及后面的附录部分. 现在,我们将

《R语言数据分析》——1.6 导入Excel电子表格

本节书摘来自华章出版社<R语言数据分析>一书中的第1章,第1.6节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 导入Excel电子表格 在学术界和商业界,除了CSV文件,Excel的xls(或xlsx,最近的一种新称呼)应该是应用最为广泛的进行存储和交换少量数据最为通用的数据格式.它最初源自Microsoft公司独有的二进制文件格式,对其文档的说明非常多(xls指南长达1100页,50M),但是对