《数据科学：R语言实现》——2.2　下载公开数据

2.2　下载公开数据

在进行数据分析之前，一项基础工作是收集高质量的有意义的数据。一个重要的数据来源是公开数据集。它们通常经过挑选和整理，并允许公众自由使用。大多数公开数据以文本格式或者API的形式发布在线上。这里我们会介绍如何使用函数download.file下载文本格式的公开数据文件。

准备工作

在本教程中，你需要给开发环境安装R，同时确保计算机可以访问互联网。

实现步骤

执行下列步骤，从互联网上下载公开数据。

1.访问http://finance.yahoo.com/q/hp?s=%5EGSPC+Historical+Prices 查看雅虎财经下的标普500历史价格，如图1所示。

2.向下滚动到页面底部，右击并复制Download to Spreadsheet中的链接（链接应该类似于http://real-chart.finance.yahoo.com/table.csv?s=%5EGSPC&d=6&e=3&f=2015&g=d&a=0&b=3&c=1950&ignore=.csv ），如图2所示。

3.使用函数download.file下载文件：

4.我们可以使用函数getwd确定当前目录，然后使用list.files查找下载的文件：

运行原理

在本教程中，我们展示了如何使用download.file下载文件。首先，我们浏览雅虎财经，查看标普500历史价格。在页面底部，我发现了带有前缀 http:// 的URL链接。http://URL 前缀代表了超文本传输协议（Hypertext Transfer Protocol，HTTP），其支持互联网上的信息发布和接收。因此，我们可以使用链接地址，通过download.file请求远程服务器。最后我们可以生成链接请求，并把远程文件保存在本地目录中。

《数据科学：R语言实现》——2.2　下载公开数据的相关文章

《数据科学R语言实践：面向计算推理与问题求解的案例研究法》一一2.3　数据清洗和变量格式化

2.3 数据清洗和变量格式化本节我们考虑如何将特征矩阵列表menResMat转换为合适的格式以便于数据分析.目前,这些数据值都是字符型,这对于诸如找到参赛者年龄的中位数这样的数据分析是无益的.但是,我们可以利用as.numeric()函数很容易地将年龄转换为数值型.我们需要将整个矩阵都转换为数值型矩阵吗?事实并非如此,比如将参赛者的名字转换为数值型就毫无意义.为此,我们需要创建一个可以允许拥有不同类型变量的数据框.现在我们有6个变量:参赛者姓名.居住地.年龄以及3种类型的时间.正如刚才所说,我

r语言-（错误在哪里）R语言如何从文件中读取数据

问题描述 (错误在哪里)R语言如何从文件中读取数据 file.choose() [1] "C:UsersHPDesktop新建文件夹data.txt" data1<-read.table("data.txt",header=T) 错误于make.names(col.names, unique = TRUE) : ''多字节字符串有错 data1<-read.table("data.txt",header=T,quote = FALSE

《Python数据科学实践指南》——0.1节何谓数据科学

0.1 何谓数据科学在家用计算机普及之前,数学.逻辑学.哲学及自然科学研究的目的都是为了追求完美的理论证明,或者是提供某种确定性的规则,用以解释某种自然现象,或者为某些技术提供理论依据.那个时候人类产生数据的能力和收集数据的能力还很有限,或许公司的经营账目和计算导弹发射弹道的演算纸就属于数据最集中的地方了.在那个年代,这些数据分析和处理的工作大都是由人工完成的,最多也只会借助某些由机械或电子构成的计算装置罢了.在互联网兴起之后,人类将现实世界中的很多信息以数据的形式存储到网络空间中,比如生活中

《数据科学：R语言实现》——第2章数据抽取、转换和加载 2.1 引言

第2章数据抽取.转换和加载 2.1 引言在使用数据回答关键业务问题之前,最重要的事情是准备数据.数据通常存在文件中,使用Excel或者文本编辑器可以轻松地获取.但是数据也可以来自于其他来源,例如数据库.网站和各种文件格式.能够从这些源中引入数据很重要. 数据主要有4种类型.以文本形式存储的数据最简单.由于一些用户需要把数据存在结构化的文件中,因此带有.tab或.csv扩展名的文件可以用来存放一定列的数据.很多年以来,Excel在数据处理领域占据主导地位,这个软件使用.xls和.xlsx文件格

《数据科学：R语言实现》——第3章数据预处理和准备 3.1 引言

第3章数据预处理和准备 3.1 引言在之前的章节中,我们介绍了如何把各种来源的数据整合在一起.然而,只是采集数据并不够,还需要确保所采集数据的质量.如果数据的质量不高,分析的结果可能会由于有偏采样或缺失数据而误导大家.而且,如果采集的数据没有良好的结构化和形态,你会很难进行数据关联和分析.因此数据预处理和准备是数据分析前的基础性工作. 熟悉SQL操作的读者可能已经理解如何使用数据库来处理数据.例如,SQL允许用户使用插入操作添加新的记录,使用更新操作修改数据,使用删除操作移除记录.但是,我们

手把手 | 教你爬下100部电影数据：R语言网页爬取入门指南

前言网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家开辟了可能性的新天地.我非常相信网页爬取是任何一个数据科学家的必备技能.在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力.有了本文的帮助,您定会克服这个困难. 网上大多数的可用数据并不容易获取.它们以非结构化的形式(HTML格式)表示,并且不能下载.因此,这便需要

2013年数据分析、数据挖掘、数据科学使用语言排行榜

最受欢迎的语言仍然是R( KDnuggets 读者中有61%用户在用),python(39%),SQL(37%).SAS仍然稳定在20%之间.增长最快是:Pig/Hive/Hadoop为基础的语言.R.SQL,同时perl, C/C++, 与Unix 在下降.同时我们发现,R与python用户存在一定的重叠. 之前的KDnuggets的调查主要是关注:统计与分析软件,但有时候一个全面与强大的编程语言是需要的.这也是最近一次的KDnuggets调查关注的重点,我们咨询: 在2013年中,什么样的

《R语言数据分析》——第3章数据筛选和汇总 3.1 去掉多余的数据

本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.1节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡译,更多章节内容可以访问"华章计算机"公众号查看. 第3章数据筛选和汇总当我们从平面文件或数据库(第1章),或直接通过某些API从Web(第2章)完成数据导入后,在开始实际的数据分析操作之前,经常会有必要对原始数据展开聚集.转换及筛选操作. 本章,我们将关注以下内容: 对数据框对象进行行或列筛选对数据进行汇总和聚集除了基础的R方法,掌握通

Keras R语言接口正式发布，同时公开20个完整示例

关于keras的介绍 Keras是一个高层神经网络API,为支持快速实验而生,目前主要功能如下: 支持相同的代码无缝跑在CPU或GPU上对用户友好,易于快速prototype深度学习模型支持计算机视觉中的卷积网络.序列处理中的循环网络,也支持两种网络的任意组合支持任意网络架构:多段输入或多段输出模型.层共享.模型共享等.这意味着Keras 本质上适合用于构建任意深度学习模型(从记忆网络到神经图灵机) 兼容多种运行后端,例如TensorFlow.CNTK和 Theano 如果你已经很熟悉Ke

猜你喜欢

Photoshop实例教程:模拟破碎玻璃的效果

本教程我们主要用Photoshop来制作一个破碎玻璃的效果,教程很简单,主要使用玻璃笔刷做出破碎效果,在使用模糊和蒙板让效果更加逼真,下面让我们一起来学习吧. 效果图: 第一步:先下载这张图片, ...

F#教程：枚举类型

F#中枚举类型的定义实例如下: type Season = | Spring = 1 | Summer = 2 | Autumn = 3 | Winter = 4 使用刚定义过的枚举类型的代码如下: ...

Oracle物理DATAGUARD最大性能模式部署

物理DATAGUARD最大性能模式配置过程主库主机edbjr2p1 备库主机edbjr2p2 1.创建主库 [root@edbjr2p1 ~]# xhost + access control dis ...

手工打造英文原版Vista安装光盘

虽然极少发生,但有些粗心的用户的确可能不慎丢失购买电脑时随机附带的Vista安装光盘,如果再去找系统提供商要,恐怕相当麻烦:假如从各色软件网站上下载,又要担心有病毒或木马的问题,就没有什么省时省力又省 ...

在Windows系统中通过主文件夹管理私有文件

在微软操作系统中,默认情况下有两个地方可以用来存储用户的私有文件.一个就是大家非常熟悉的 "我的文档".由于"我的文档"保存在用户配置文件内,如如果采用漫游用户 ...

在Delphi中自定义图标的消息框

应用程序在运行当中经常要输出各种即时信息,Delphi提供了多种形式的消息对话框可以满足这些要求,尽管可以使用各种标志定制一个消息框,但仍不能将自己的图标放在消息框内,也不能修改其标准行为去创建自己的 ...

TClipboard

TClipboard封装了Windows Clipboard. 类关系 TObject->TPersistent WindowsClipboard包含对任何一个应用程序剪切.复制或粘贴的文本或图 ...

word2013如何进行分栏排版

分栏排版的步骤如下: 步骤一:这里以word2013为例,wps等也是类似的.打开word文档,进入打算编辑的word文档. 步骤二:在文档中,为了给文档进行排版,选中想分栏的文字,这里点击&qu ...

怎么用迅雷下载百度网盘资源

1.打开迅雷页面,选择设置 2.选择我的下载→监视设置,勾选监视对象与监视下载类型中的所有选项. 3.设置好后我们下载任何文件迅雷都会蹦出来的,选择想要下载的资源.百度最近在推广他的百度云管家所以会有 ...

在PHOTOSHOP中创建科幻风格激光灯

创建这个过程是很简单的,不能在下面短短3个简单的步骤完成.技术包括一些基本的图层混合,选择,绘画技能. 下面是最后的效果我有这个教程的预览: 好吧,让我们开始吧! 第1步创建与黑色背景的新文件( ...

QQ速递是什么 QQ速递有什么用？

最近有不少朋友在一些媒体网站中看到关于QQ速递的新闻,对于腾讯QQ速递服务不是很了解,于是询问笔者QQ速递是什么?其实在QQ最新版QQ2012 中我们已经可以看到有QQ速递查询的应用,只是初期没有被多 ...

一个全新安装Win7的好方法

熟悉Win7最简单直接的方法,自然是经常使用Windows7,而要使用之前先要安装Windows7.对于Win7的安装方法,有硬盘安装法和光盘安装法. 对于XP或者Vista用户来说,快捷方便的方 ...

电脑中如何设置VirtualBox下的Ubuntu共享剪贴板功能

1.点击菜单栏中的"设备"--"安装增强功能",然后重启Ubuntu; 2.在桌面会出现VBOXADDITIONS_3.1.8_61349的光盘图标; 3. ...

android api17-关于加密的以下代码为什么无法在安卓4.2.2上正常工作

问题描述关于加密的以下代码为什么无法在安卓4.2.2上正常工作完整代码如下 package com.example.test;import java.security.NoSuchAlgorith ...

视频-急求，大神解答一个定制摄像头问题

问题描述急求,大神解答一个定制摄像头问题在iPhone上同时打开前后两个摄像头录制视频能实现嘛?能给个思路吗? 解决方案连个摄像头都打开这个还算是苹果的专利呢:http://mobile.qud ...

Ext运行页面出错：&amp;#x27;events&amp;#x27;为空或不是对象，不知道什么地方出错了！

问题描述 <body><scripttype="text/javascript"language="javascript">functi ...

使用MonoDevelop开发GTK#图形界面

Mono一直到现在的2.8已经完全可以胜任一些比较小的项目了,但相关的开发文档与教程一直比较匮乏,中文材料更是屈指可数.虽然Mono与.net很多类库都是通用的,但Mono仍然有为数不少的扩充类库,其 ...

请教一个android广播接收器的问题

问题描述请教一个android广播接收器的问题为什么自己写的程序被一些下手较狠的进程管理器(如360优化大师的一键清理)杀死后,其中的广播就接收不到广播了? 曾做了一个实验: 假设有程序为A,B和 ...

Fido File Monitor 1.0.7发布多线程文件监测器

Fido http://www.aliyun.com/zixun/aggregation/19352.html">File Monitor 是一个多线程文件监测器,用于用户自定义模式的 ...

数据库查询时出错！

问题描述 select * from dbo.user错误信息:消息 156,级别 15,状态 1,第 1 行关键字 'user' 附近有语法错误.select * from user错误信息:消息 ...

中国电信亮相工博会

早报记者周玲昨天在上海开幕的2011年上海国际工业博览会上,中国电信(微博)展示了50多项"智慧城市"应用,向参观者描述着未来"智慧城市"的生活景象. 电信 ...

洪恩在线成语词典小偷程序php版_php技巧

主要函数是file_get_contents,主程序分两段,跟我一起看过来吧(凡人博客原创代码,转载请注明). 复制代码代码如下: function escape($str){ preg_match ...

iOS开发之UIWindow

1.概述 UIWindow是一种特殊的UIView,通常在一个app中只会有一个UIWindow. iOS程序启动完毕后,创建的第一个视图控件就是UIWindow,接着创建控制器的view,最后将控制 ...

借助用户群组细分进行网站用户行为分析

中介交易 SEO诊断淘宝客云主机技术大厅网站访问者来源于复杂的人群,而且每个人的访问行为和访问目的都或多或少有着不同之处.用户群组细分作为常用的网站分析策略,用来区分不同访客群体,并帮助你深入 ...

sqlserver ssms-Microsoft SQL Sever Management Studio Express

问题描述 Microsoft SQL Sever Management Studio Express 打开SSMS这个软件时,当在对象资源管理器展开文件时,弹出如下图所示的窗口提示信息.求解决办法,谢 ...

数据分析工作能否外包？

人们对大数据兴趣激增,数据分析团队也显得供不应求.大数据能让企业变得更有效率,提升整体的竞争力.具备高级数据分析能力的公司已经找到了构建长期优势的方法.例如联邦快递在过去几年里就已经靠内部的专业数据分 ...

PHP中ORDER BY子句的详细用法教程_Mysql

我们已经看到SQL SELECT命令来获取数据从MySQL表.当选择行,MySQL服务器是自由返回,除非指示说如何排序结果否则它会自由返回.指定需要结果集增加一个ORDER BY子句要作为排序依据的列 ...

dedecms运行php代码和mysql语句的例子

一.dede运行php代码举例1: {dede:name runphp='yes'} $str = "hello "; @me = $str; @me .= "worl ...

联通iPhone4上市时间定于本月底前与iPad首发撞车

多玩网讯在上市时间上多次传出乌龙消息的联通版iPhone4终于有了实质进展,昨日中国联通官方网站发布公告,称联通将于今日10时起,接受iPhone4合约计划预约,同时公布的还有合约套餐价格,16GB ...

硅谷视角：苹果iWatch智能手表或许长这样？

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 硅谷网讯关于苹果iWatch智能手表的消息,我们已经 ...

热搜

《数据科学：R语言实现》——2.2 下载公开数据

2.2 下载公开数据