探索R独特应用方式和数据世界统计的价值

正如 Eppes 博士在电视连续剧 NUMB3RS(数字追凶) 开始所说的那样,数学对现代科学与工程至关重要。就像牛顿所观察到的那样,我们站在巨人的肩膀上:科学与工程相当于一个公共活动,为了实现某个目而创建的工具通常可用于提高其他领域的生产力。

我们也很难用只言片语来概括数字计算机对现代科学与工程的重要性。流程可能从科学的观察和测量方法开始,但分析会紧随其后,并且还需要强大且易用的工具来分析所收集的大量数据。

数学统计原则的主要目的是允许收集和分析数据。统计是一个广泛的类别,涵盖收集、组织、分析、解释和显示数据。

本着为此类数据统计分析制作一个强大工具的想法,贝尔实验室的工程师在 1976 年开发了一种名为 S 的编程语言。随着编程语言 S 能力和知名度的提高,它转变成了 S-Plus,这是由 TIBCO 分发的一个商业软件包。

正如成功的商业工具经常发生的事情一样,GNU 项目制作了 S 的一个开源版本,并将它命名为 R。S-Plus 和 R 的一个主要区别是,R 主要是一个命令行的软件包,而 S-Plus 则提供了图形用户界面 (GUI)。

R 的以下特征使它变得特别有用:

交互式 — 输入命令后可立刻看到结果。 简单 — 从安装并开始使用它的那一刻起,就可以
轻松获得有用的结果。 全面 — R 利用了庞大的统计分析软件库,这些软件库与软件包一起成长。 可扩展 — 可以轻松地创建自己的功能库并与 R 社区共享它们。

R 还提供了各种工具,可使用它们来将数据轻松导入软件包以进行分析。

统计的重要性

统计这门学科可以指导决策制定过程。收集您所感兴趣话题的有意义数据,确定各种统计值,比如有助于制定更好决策的数据约束解决方案所包含的最小值、最大值、众数值、平均值、中间值和标准方差。例如,如果产品所用的材质会因为温度太高而熔化,那么在大规模生产之前应了解这一点。必须确保预计的最高温度远低于所用材质的最低熔点。

统计数据有助于制定更明智的决策

制定明智的决策需要努力工作。无论处于哪个领域,在制定决策之前必须尽职调查。世上没有免费的午餐。例如,如果您的目标是做一个赚钱的投资者(确定具有增长潜力的股票、购买价格和目标卖出价格),那么您必须研究该股票的优势,其中一个重要的特点是它过去的业绩。

找到此类统计数据并不难。可以从您的代理所推荐的来源下载此类统计数据。采用使用电子表格格式或逗号分隔的文本文件下载历史数据,这样可以轻松将此数据输入到 R 中。将数据输入 R 中以后,可以轻松采用几种统计分析工具找到制定明智决策所需的信息。

这同样适用于工程或科学领域。NASA 工程师花费了大量时间来构建原型设备(比如火箭引擎)并测试它们,这样,它们不仅可以提供所需的推力,而且安全性也大幅提高了。选择特定设计肯定是一个明智的决策,这样才不会将资金和人力浪费在发射不久即会爆炸的火箭上。需要分析大量测试数据来引导决策的制定。

统计有助于解释数据

统计分析过程的一部分是解释数据 — 即为数据分配含义并确定该含义的意义。例如,当设计除草剂时,农业科学家会将它们小心地喷洒到隔离的植物种群上,并记录随着时间的推移它们的表现。除草剂背后的理念是在不伤害作物的情况下除去杂草,评估其有效性的一种简单方法是一段固定时间内所除杂草与作物的比率。

收集了此类数据之后,如果没有看到预期的结果,那么数据中的其他线索可能会暗示原因。如果收集到了其他巧合数据,比如每天为植物浇多少水,以及植物的光照时间,那么科学家可能会发现隐藏的模式,找到测试失败的原因。此类隐藏模式可能会非常简单,比如每天浇水不够,无法让除草剂发挥作用。如果没有收集并分析表现数据,就无法分配含义。

统计数据有助于建立贝叶斯推断

在收集更多数据时,可以开始使用贝叶斯推断,这是一种更新假设的概率估计的方法。近年来,随着数字计算机技术的出现,使用新数据更新概率的贝叶斯技术已进入全盛时期。R 是应用贝叶斯推断的理想工具,因为 Comprehensive R Archive Network 中提供了很多应用它的软件包。

统计可以让您挖掘宝藏

R 的交互特性使探索数据的老式批处理方式具有新的灵活性。使用 R,在感到需要探索时,您可以不断地输入构建和显示对象的命令。这种灵活性可以让您在添加到科学知识的数据中找到宝藏。

R 数据类型

现实世界的计算机模型和数学抽象差不多。在 R 会话中建模的系统可以多种不同的数据类型表示。

R 数据类型以命名变量的形式保存,要显示变量的内容或值,只需输入名称即可。R 中的变量是区分大小写的(A 和 a 不同)并且必须是惟一的。启动 R 后,可以输入如清单 1 所示的命令。

清单 1. R 中的命名变量

> a <- 7> a[1] 7> hours_per_day <- 24> days_per_week <- 7> hours_per_week <- hours_per_day * days_per_week> hours_per_week[1] 168

标量和向量

数学是科学的语言,最简单的数学对象是标量,一个表示对象值或大小的数字。在 R 中,使用简单的赋值就可以创建具有标量值的变量。下列命令表示同样的事 — 将 3.14 分配给名为 pi 的变量:

> pi <-- 3.14> 3.14 --> pi> pi = 3.14> pi[1] 3.14

R 手动将 向量 定义为 "由一个对象集合组成的单一实体"。构建向量的 c() 函数看起来是这样的:

> days_per_month <- c(31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)

此外,可以将名称附加到向量元素中,如下所示:

> names(days_per_month) <- c("Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec")> days_per_monthJan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 31 28 31 30 31 30 31 31 30 31 30 31

请注意,names 向量的输入数据是字符串。向量可以包含 R 提供的任意数据类型集合,包括字符串。

时间: 2024-10-17 04:53:18

探索R独特应用方式和数据世界统计的价值的相关文章

探索大数据世界 主流大数据厂商盘点

文章讲的是探索大数据世界 主流大数据厂商盘点,在当前的互联网领域,大数据的应用已经十分广泛,尤其以企业为主,企业成为大数据应用的主体.大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的.随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益.大数据的应用已广泛深入我们生活的方方面面,涵盖医疗.交通.金融.教育.体育.零售等各行各业.       目前国内外做大数据的厂商依旧分为两类:一类是正进行数据库和数据仓储业务的老牌厂商,他们打算利用自身优势地位冲击大数据领域,

第二届大数据世界论坛 聚焦行业需求

本文讲的是第二届大数据世界论坛 聚焦行业需求,随着现代技术的发展,企业产生的业务数据和客户数据早已汗牛充栋.如何有效的组织管理数据,提供商业解决方案,已经不是单纯的IT技术问题,而是与企业未来发展前途攸关的关键性问题.大数据时代已经到来!大数据正在成为IT业界的焦点话题.为此,2012第二届大数据世界论坛(BIG DATA World Forum BDWF 2012)将于7月13日在北京隆重开幕,本届论坛的主题是"海量数据,深度分析,智慧商业". ▲点击进入IT168现场报道专题 作为

探索适合的生存方式,拥抱大时代

在互联网兴起的这二十几年里,社会的底层架构发生了翻天覆地的变化,只要有光纤存在的地方,信息传递的速度几乎就跟光速差不多,信息扩散的方式发生了巨大的变化.互联网不止是工业时代的工具或者是简单的一次科技进步,它应该被当做是一个独立的时代,而目前最厉害的一次颠覆也正好是互联网时代颠覆了工业时代.时代颠覆的力量一直以来都是势不可挡的,回首当年,看似强大的北洋水师最终在甲午海战中惨败,这背后蕴含的实际上是两个不同时代的交锋,是农业时代在工业时代面前的惨败. 旧有体系被颠覆,要生存,就必须向新的时代逃逸.前

【黑马Android】(05)短信/查询和添加/内容观察者使用/子线程网络图片查看器和Handler消息处理器/html查看器/使用HttpURLConnection采用Post方式请求数据/开源项目

备份短信和添加短信 操作系统短信的uri: content://sms/ <?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android="http://schemas.android.com/apk/res/android" package="com.itheima28.backupsms" android:versionCode="1

静态密码已经&quot;OUT&quot; 探索身份验证新方式

本文讲的是静态密码已经"OUT" 探索身份验证新方式,2011年末爆发了中国互联网史上最为严重的网站数据泄漏事件,很多中招用户开始修改自己的密码,"今天你改密码了吗?"成了最流行的网络问候语,很多用户都在抱怨改密码改到手软.想起互联网刚刚在国内兴起时候的一个名词:"网上冲浪",现在看来,如今的互联网用户依然是在用一个账号+一个密码在互联网上肆无忌惮的"冲浪".随着黑客技术的不断进步,这种传统的账号+密码的身份验证方式是否依然适

安存:无序数据世界中的坐标

安存:无序数据世界中的坐标 <纽约人>刊登的黑色幽默式漫画的标题让人印象深刻:"在互联网上,没人知道你是一条狗".该则漫画刊登于互联网还不够发达的1993年,漫画中的时代似乎已一去不复返了,越来越多的实名认证提醒着人们,互联网是虚拟的,但它的应用是真实的.安存科技就是一家致力于证明瞬间,证明虚拟互联网真实性的公司. 在北京的一家咖啡馆里,<商业价值>记者对安存科技首席构架师徐敏进行了采访.徐敏指着名片上的头衔告诉记者,"构架师"是他自创的词汇

用R分析时间序列(time series)数据

用R分析时间序列(time series)数据 时间序列(time series)是一系列有序的数据.通常是等时间间隔的采样数据.如果不是等间隔,则一般会标注每个数据点的时间刻度.  下面以time series 普遍使用的数据 airline passenger为例. 这是十一年的每月乘客数量,单位是千人次. 如果想尝试其他的数据集,可以访问这里:  https://datamarket.com/data/list/?q=provider:tsdl 可以很明显的看出,airline passe

企业数据世界论坛结题篇:洞察行业趋势,倾听中国好声音

大数据文摘和御数坊合作,带给您"数据治理与管理领域"顶尖时讯.此活动由御数坊创始人刘晨,亲临美国企业数据世界EDW2015大会现场,为您报道大数据最不应却又最容易被忽略的内容,大数据文摘和御数坊同步为您传递... 御数坊简介 微信ID: DGWorkshop_CN 专注于数据治理与管理领域,致力于将全球最优质的数据治理与数据管理资源带给中国数据从业者,帮助中国各行各业企业客户夯实数据基础,提升数据质量,为数据资产价值的挖掘和创造保驾护航. 美国东部时间4月1日至4月3日上午,第19届企

R语言是如何增强数据科学

当今数据科学领域最流行的工具之一是开源编程语言R语言,它广泛的应用于各个领域.简单来说,R语言就是一种数据语言.过去的20年间,全世界的统计学家已经为开源语言R语言做出了许多创新性的贡献.这些贡献意味着,R语言开发者们能够找到一种方法来接触到那些边缘学科运算规则的资料库(不再受统计学知识的限制),从而能够很迅速地开发出智能分析应用程序.正是如此,R语言变得越来越好,非常受用户欢迎,应用的行业也更加广泛. 我们已经可以看到R语言的强大功能既适用于初创企业,也可以在传统企业中发挥作用:比如,挪威的e