终极对决:R 与 Excel 在数据分析当中的优劣势对比

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是 Excel,因为这是我熟练掌握的一款工具。三年前,我开始接触到 R,一开始因为功能太多而坚决抵制使用。后来我开始琢磨如何使用。现在我基本不怎么使用 Excel 了。这只是我个人的观点,但是如果你要分析数据,R 更胜任这项任务。下面来说说为什么 R 更适合数据分析。

这两款工具的使用方法截然不同。使用 Excel 时,可以通过鼠标点击完成大部分工作,你可以访问界面内不同位置的各种工具。因此 Excel 非常便于使用(熟能生巧),但是用 Excel 处理数据非常费时,而且如果接手一个新项目,你必须单调地重复这些流程。使用 R 时,则通过代码完成所有操作。你把数据载入内存,然后运行脚本来研究并处理数据。这个工具可能不够人性化,但是有以下几点好处。

我认为,从概念上来说,R 更便于使用。如果你在处理多列数据,虽然你只是在处理单个任务,但是却会看到所有的数据。而使用 R 时,数据都在内存中,只有调出数据才能看到。如果你在转换或计算,你会处理相关列或行的子集,其他所有数据都在后台。我觉得这样更便于关注手头的任务。完成任务后,可将其保存在某个数据帧中,其中只包含所需的列或行数据。你建立了正确的数据集,可解决当前的问题。这样做看似无关紧要,但实际上大受裨益。

借助 R,就可以对其他数据集轻松重复相同的操作。因为所有数据都是通过代码进行处理和研究,因此对新的数据集执行相同的操作也就轻而易举了。使用 Excel 时,大多数操作都是通过鼠标点击实现,虽然用户体验不错,但对新的数据重复操作却非常费时而枯燥。而 R 只需载入新的数据集,然后再次运行脚本即可。

实际上,用代码操作也便于诊断并共享你的分析结果。使用 Excel 时,大多数的分析结果都基于内存(数据透视表在这里,公式编辑器在另一个表格上等)。而在 R 中,通过代码执行所有操作,一目了然。如果你在修正一个错误,你很清楚在哪里操作,而如果你需要共享分析结果,只需复制粘贴代码即可。在线查找帮助时,你能准确说明所用数据,并提出具体的问题。事实上,大多数时候,你在线提问时,人们都是直接贴出准确的代码,来解决你的问题。

R 中的项目组织更简单。在 Excel 中,我要准备一系列表格,可能还要准备多个工作簿,然后适当命名,而且各文件名不得重复。我的项目备注分别保存在各个文件中。我的 R 项目组织单独设有一个文件夹,我处理过的所有内容都放在其中。清理数据、探索性图表及模型。这样便于我理解和查找,也为与我一起工作的其他人提供方便。当然,Excel 也能做到井井有条。我觉得 R 的简洁性更便于使用。

上述几点只能说是锦上添花,而并不是必不可少。在没有这些功能之前,我也用了好几年 Excel,你应该也一样。现在,我想讲讲 R 和 Excel 真正的区别。我想说的是,除了以上那些花哨的小优势之外,R 更适合用于数据分析。原因如下。

你可以把任何数据载入 R。数据的保存位置或保存形式并不重要。你可以载入 CSV 文件,也可以读取 JSON,或者执行 SQL 查询,抑或提取网站。你甚至还可以在 R 中通过 Hadoop 处理大数据。

R 是一个完整的工具集,使用的是数据包。在分析数据时,R 比 Excel 更实用。你可使用 R 执行数据管理、分类和回归,也可以处理图片,并执行其他所有操作。如果机器学习是你的专业,那能想到的任何算法都是小菜一碟。目前,R 可用的数据包逾 5,000 个,因此无论你要处理什么类型的数据,R 都能应付自如。

R 的数据可视化效果非常卓越。说句实话,Excel 的图表非常出色,简单易懂。但 R 的效果更好。我觉得这是 R 最实用的功能之一。借助 ggplot2,你可以快速创建所需的各种图表,并根据图表形状自行调整。在你熟悉了如何用 ggplot2 创建一个图表后,任何其他图表都不在话下。ggplot2 还能制作更多类型的图表。你能用 Excel 创建散点图矩阵吗?用 R 就能轻松创建这种矩阵,CDF plot 也是如此。Excel 棋差一招。

Git 版本控制。我一向习惯保存多个版本的分析结果。Git 是至今为止我找到的最好用的工具。我使用 RStudio 作为编辑器,其支持项目。创建一个项目仓库,然后你就能跟踪数据研究的不同版本。你可以创建不同版本的 Excel 文件,但是这些保存的二进制文件无法显示相互之间的更改部分。而 R 非常简单。

我已经说了很多理由。总之,Excel 是一款不错的数据分析工具。我相信它能不负众望完成所有任务。但是,如果你只有这一款工具,则会大大影响你的工作效率。相比之下,R 更好用,而且提供的工具集模块更完整。而缺点在于不是非常易于上手,用户一开始相对要花很多时间学习使用。如果坚持下去,就会有所收获,不仅对数据更了解,还提高了自己的能力。

本文作者:佚名

来源:51CTO

时间: 2024-10-31 19:54:46

终极对决:R 与 Excel 在数据分析当中的优劣势对比的相关文章

《R与Hadoop大数据分析实战》一2.5 在R环境中编写Hadoop MapReduce程序的方式

2.5 在R环境中编写Hadoop MapReduce程序的方式 我们知道对将R工具用于分析的统计学家.网络分析师以及产品经理来说,用MapReduce进行Hadoop大数据处理是一件非常重要的事,因为补充MapReduce的编程知识对于用Hadoop将分析整合到MapReduce来说是必要的.并且,我们知道R是一个一直以来普及程度逐步提升的工具:为了整合R,有许多程序包和函数库一直在改进.因此为了研发基于R和Hadoop计算能力运行的MapReduce算法程序,我们需要R和Hadoop的中间软

新浪腾讯终极对决的关键在哪?

所有的产品都要回归一个本源,存在的价值!很多产品会改变时代,比如微博.比如LBS服务,其影响正在或者将要渗透文化.教育.商业等各个方面,另一些产品可能不合法,甚至建立在损伤一部分人利益的基础上,但他本身有价值,比如文库,广受争议,而另一些产品没有存在的必要,比如嘀咕微领地之流,当然,还有此刻的微信. 一.微信错在哪里? Kik此前一度火热,引来名流大家一片喧嚣,直到微信华丽出场,所有的声音很快沉寂,那些声音之所以沉寂了,不是因为腾讯出手没其他人戏分了,而是腾讯出手之后被发现,原来,压根就没有市场

巨头终极对决,Apache、Nginx 与 Node.js 之争

巨头之间的终极对决:崛起的新星 Node.js 能否战胜巨人 Apache 和 Nginx?WordPress 与 Ghost 的性能大对决! 我和你一样,都阅读过大量散布在互联网各处的意见或事实,其中有一些我认为是可靠的,而其它的可能是谣传,让人难以置信. 我读过的许多信息是相当矛盾的,有人深信 StackOverflow(比如这个和另一个),而其他人展示了一个清晰的令人惊讶的结果,这在推动我自己去做测试来验证结论的过程中扮演了重要的角色. 起初,我做了一些思想准备,我认为我可以避免自己进行实

Excel怎么将2个表格进行对比

  Excel怎么将2个表格进行对比          例:如下图所示有两个表格要对比,一个是库存表,一个是财务软件导出的表.要求对比这两个表同一物品的库存数量是否一致,显示在sheet3表格. 库存表: 软件导出表: Excel技巧:两个Excel表格对比方法 步骤1:选取sheet3表格的A1单元格,excel2003版里,执行数据菜单(excel2010版 数据选项卡) - 合并计算.在打开的窗口里"函数"选"标准偏差",如下图所示 步骤2:接上一步别关窗口,

用Excel做数据分析——回归分析

实例 某溶液浓度正比对应于色谱仪器中的峰面积,现欲建立不同浓度下对应峰面积的标准曲线以供测试未知样品的实际浓度.已知8组对应数据,建立标准曲线,并且对此曲线进行评价,给出残差等分析数据. 这是一个很典型的线性拟合问题,手工计算就是采用最小二乘法求出拟合直线的待定参数,同时可以得出R的值,也就是相关系数的大小.在Excel中,可以采用先绘图再添加趋势线的方法完成前两步的要求. 选择成对的数据列,将它们使用"X.Y散点图"制成散点图. 在数据点上单击右键,选择"添加趋势线&quo

教你使用Excel做数据分析之回归分析方法

在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等.很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等.它们虽很专业,但其实使用Excel就完全够用了.我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理. 注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择"工具"-&qu

R语言试用开源数据分析平台的4个不错的理由

R 已证明自己是不断成长的大数据领域的一个有用工具,并且已集成到多个商用包中,比如 IBM SPSS® 和 InfoSphere®,以及 Mathematica.本文提供了一位统计学家对 R 的价值的看法. 您可能已经听说过 R.或许您阅读过类似于 Sam Siewert 的 "云中的大数据" 这样的文章.您或许知道 R 是一种编程语言,而且知道它与统计学有关,但它是否适合您呢? 为什么选择 R? R 可以执行统计.您可以将它视为 SAS Analytics 等分析系统的竞争对手,更不

学习用Excel做数据分析之移动平均方法

某化工反应过程,每隔2分钟对系统测取一次压力数据.由于反应的特殊性,需要考察每8分钟的压力平均值,如果该压力平均值高于15MPa,则认为自属于该平均值计算范围内的第一个压力数据出现时进入反应阶段,请使用Excel给出反应阶段时间的区间. 移动平均就是对一系列变化的数据按照指定的数据数量依次求取平均,并以此作为数据变化的趋势供分析人员参考.移动平均在生活中也不乏见,气象意义上的四季界定就是移动平均最好的应用. 注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择"工

用Excel做数据分析之相关系数与协方差

化学合成实验中经常需要考察压力随温度的变化情况.某次实验在两个不同的反应器中进行同一条件下实验得到两组温度与压力相关数据,试分析它们与温度的关联关系,并对在不同反应器内进行同一条件下反应的可靠性给出依据. 相关系数是描述两个测量值变量之间的离散程度的指标.用于判断两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);还是两个变量中的值互不关联(相关系数近似于零).设(X,Y)为二元随机变量,那么: