《数据科学:R语言实现》——2.2 下载公开数据

2.2 下载公开数据

在进行数据分析之前,一项基础工作是收集高质量的有意义的数据。一个重要的数据来源是公开数据集。它们通常经过挑选和整理,并允许公众自由使用。大多数公开数据以文本格式或者API的形式发布在线上。这里我们会介绍如何使用函数download.file下载文本格式的公开数据文件。

准备工作

在本教程中,你需要给开发环境安装R,同时确保计算机可以访问互联网。

实现步骤

执行下列步骤,从互联网上下载公开数据。

1.访问http://finance.yahoo.com/q/hp?s=%5EGSPC+Historical+Prices 查看雅虎财经下的标普500历史价格,如图1所示。

2.向下滚动到页面底部,右击并复制Download to Spreadsheet中的链接(链接应该类似于http://real-chart.finance.yahoo.com/table.csv?s=%5EGSPC&d=6&e=3&f=2015&g=d&a=0&b=3&c=1950&ignore=.csv ),如图2所示。

3.使用函数download.file下载文件:

4.我们可以使用函数getwd确定当前目录,然后使用list.files查找下载的文件:

运行原理

在本教程中,我们展示了如何使用download.file下载文件。首先,我们浏览雅虎财经,查看标普500历史价格。在页面底部,我发现了带有前缀 http:// 的URL链接。http://URL 前缀代表了超文本传输协议(Hypertext Transfer Protocol,HTTP),其支持互联网上的信息发布和接收。因此,我们可以使用链接地址,通过download.file请求远程服务器。最后我们可以生成链接请求,并把远程文件保存在本地目录中。

更多技能

除了使用函数download.file下载文件,我们也可以使用RCurl下载带有HTTP URL或者HTTPS URL前缀的文件。

1.首先,访问https://nycopendata.socrata.com/Social-Services/NYC-Wi-Fi-Hotspot-Locations/a9we-mtpn ?,查看纽约市公开数据中的Wi-Fi热点位置文件,如图3所示。

2.接着,单击Export找到CSV下载链接,如图4所示。

3.然后安装加载RCurl程序包:

4.最后,使用函数getURL下载HTTPS URL前缀文件:

时间: 2024-08-03 15:33:38

《数据科学:R语言实现》——2.2 下载公开数据的相关文章

《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.3 数据清洗和变量格式化

2.3 数据清洗和变量格式化 本节我们考虑如何将特征矩阵列表menResMat转换为合适的格式以便于数据分析.目前,这些数据值都是字符型,这对于诸如找到参赛者年龄的中位数这样的数据分析是无益的.但是,我们可以利用as.numeric()函数很容易地将年龄转换为数值型.我们需要将整个矩阵都转换为数值型矩阵吗?事实并非如此,比如将参赛者的名字转换为数值型就毫无意义.为此,我们需要创建一个可以允许拥有不同类型变量的数据框.现在我们有6个变量:参赛者姓名.居住地.年龄以及3种类型的时间.正如刚才所说,我

r语言-(错误在哪里)R语言如何从文件中读取数据

问题描述 (错误在哪里)R语言如何从文件中读取数据 file.choose() [1] "C:UsersHPDesktop新建文件夹data.txt" data1<-read.table("data.txt",header=T) 错误于make.names(col.names, unique = TRUE) : ''多字节字符串有错 data1<-read.table("data.txt",header=T,quote = FALSE

《Python数据科学实践指南》——0.1节何谓数据科学

0.1 何谓数据科学 在家用计算机普及之前,数学.逻辑学.哲学及自然科学研究的目的都是为了追求完美的理论证明,或者是提供某种确定性的规则,用以解释某种自然现象,或者为某些技术提供理论依据.那个时候人类产生数据的能力和收集数据的能力还很有限,或许公司的经营账目和计算导弹发射弹道的演算纸就属于数据最集中的地方了.在那个年代,这些数据分析和处理的工作大都是由人工完成的,最多也只会借助某些由机械或电子构成的计算装置罢了.在互联网兴起之后,人类将现实世界中的很多信息以数据的形式存储到网络空间中,比如生活中

《数据科学:R语言实现》——第2章 数据抽取、转换和加载 2.1 引言

第2章 数据抽取.转换和加载 2.1 引言 在使用数据回答关键业务问题之前,最重要的事情是准备数据.数据通常存在文件中,使用Excel或者文本编辑器可以轻松地获取.但是数据也可以来自于其他来源,例如数据库.网站和各种文件格式.能够从这些源中引入数据很重要. 数据主要有4种类型.以文本形式存储的数据最简单.由于一些用户需要把数据存在结构化的文件中,因此带有.tab或.csv扩展名的文件可以用来存放一定列的数据.很多年以来,Excel在数据处理领域占据主导地位,这个软件使用.xls和.xlsx文件格

《数据科学:R语言实现》——第3章 数据预处理和准备 3.1 引言

第3章 数据预处理和准备 3.1 引言 在之前的章节中,我们介绍了如何把各种来源的数据整合在一起.然而,只是采集数据并不够,还需要确保所采集数据的质量.如果数据的质量不高,分析的结果可能会由于有偏采样或缺失数据而误导大家.而且,如果采集的数据没有良好的结构化和形态,你会很难进行数据关联和分析.因此数据预处理和准备是数据分析前的基础性工作. 熟悉SQL操作的读者可能已经理解如何使用数据库来处理数据.例如,SQL允许用户使用插入操作添加新的记录,使用更新操作修改数据,使用删除操作移除记录.但是,我们

手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

前言 网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家开辟了可能性的新天地.我非常相信网页爬取是任何一个数据科学家的必备技能.在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力.有了本文的帮助,您定会克服这个困难. 网上大多数的可用数据并不容易获取.它们以非结构化的形式(HTML格式)表示,并且不能下载.因此,这便需要

2013年数据分析、数据挖掘、数据科学使用语言排行榜

 最受欢迎的语言仍然是R( KDnuggets 读者中有61%用户在用),python(39%),SQL(37%).SAS仍然稳定在20%之间.增长最快是:Pig/Hive/Hadoop为基础的语言.R.SQL,同时perl, C/C++, 与Unix 在下降.同时我们发现,R与python用户存在一定的重叠. 之前的KDnuggets的调查主要是关注:统计与分析软件,但有时候一个全面与强大的编程语言是需要的.这也是最近一次的KDnuggets调查关注的重点,我们咨询: 在2013年中,什么样的

《R语言数据分析》——第3章 数据筛选和汇总 3.1 去掉多余的数据

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.1节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问"华章计算机"公众号查看. 第3章 数据筛选和汇总 当我们从平面文件或数据库(第1章),或直接通过某些API从Web(第2章)完成数据导入后,在开始实际的数据分析操作之前,经常会有必要对原始数据展开聚集.转换及筛选操作. 本章,我们将关注以下内容: 对数据框对象进行行或列筛选 对数据进行汇总和聚集 除了基础的R方法,掌握通

Keras R语言接口正式发布,同时公开20个完整示例

关于keras的介绍 Keras是一个高层神经网络API,为支持快速实验而生,目前主要功能如下: 支持相同的代码无缝跑在CPU或GPU上 对用户友好,易于快速prototype深度学习模型 支持计算机视觉中的卷积网络.序列处理中的循环网络,也支持两种网络的任意组合 支持任意网络架构:多段输入或多段输出模型.层共享.模型共享等.这意味着Keras 本质上适合用于构建任意深度学习模型(从记忆网络到神经图灵机) 兼容多种运行后端,例如TensorFlow.CNTK和 Theano 如果你已经很熟悉Ke