R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。

R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发。(也因此称为R)现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。

R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。R主要是以命令行操作,同时有人开发了几种图形用户界面。(此资源来自维基百科)

众所周知,Google开创了MapReduce,MapReduce是处理存储在存储区的非结构化数据的先驱。虽然Google不允许MapReduce被外部使用,但由于Google曾拿出MapReduce一部分相关信息与Nutch分享,以开发开源版本的Hadoop。结果Nutch被Yahoo收购,所以Yahoo也推出了Apache Hadoop项目。

MapReduce的工作原理是将非结构化数据打碎并分布到服务器的各个节点。MapReduce将并行化、容错、数据分布、负载均衡等放在库中,而将系统对数据的所有操作都归结为两个步骤,通过Map和Reduce两步来实现在大规模计算节点中人物的调度与分配。

R语言与Hadoop结合

现在,统计工作者可利用R语言,R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。其主要模仿了Google的BigTable。这基本上等同于使用Hadoop来持有结构化数据的数据库。就像Apache软件基金会Hadoop项目的子项目HBase一样。

Revolution Analytics公司提供对开源R语言的商用软件扩充以及支援,这使得让统计分析师及科学家能够在短暂的时间内从大量的重要资料中发现有意义的资讯。Revolution Analytics公司首席技术官David Champagne表示R引擎可部署在Hadoop集群中的每个节点上面。你可以在部署了R的工作组中设置R算法,而不是在Java编程中减少算法。它可解析Hadoop映射函数的节点,同时可并行的统计分析存储在HDFS的数据。

如果不使用MapReduce,然后提取数据并将数据返回给分析数据的工作组。但不要忘记你还需要消化集群中的数据,同时还要聚合它们。从本质说,R是使用Hadoop的一个网格控制器,其管理特定算法的运行并控制运行的数据。

R语言为企业提供更多商机

本周,Revolution Analytics与Cloudera成为新的合作伙伴。并宣布将Cloudera Distribution Apache Hadoop(CDH3)集成到Revolution Analytics的R企业平台上。新产品被称为“RevoConnectR for Apache Hadoop”。

其实Oracle早在去年就增加了对开源R语言的支持,据Oracle官方透露他们将在数据挖掘软件接口中更多使用R语言进行数据的统计与分析。同时一些主流的数据分析和数据库厂商,如IBM、SAS也都已经开始支持R语言。

七款优秀的R语言图形用户界面

相关的R语言图形用户界面也应用而生,其可帮助初学者快速进入R语言环境。包括:集成开发环境RStudio、Gnome环境下的R语言数据挖据工具Rattle、图形编程界面Red-R、Deducer等。

现在,R与Hadoop的连接器已经可以在GitHub下载。

(责任编辑:吕光)

时间: 2024-11-01 07:18:29

R语言为Hadoop集群数据统计分析带来革命性变化的相关文章

一个助Hadoop集群数据快速上云工具

背景 越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上. 当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上. 在阿里云上使用最广泛的存储服务是OSS对象存储.OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这个工具无法读取Hadoop文件系统的数据,无法发挥Hadoop分布式的特点.并且因为工具只支持本地文件,所以需要将HDFS上的文件先

R语言为Hadoop注入统计血脉

R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图.由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoop结合在一起,很好发挥了R语言特长.广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯.作者从一个程序员的角度对R语言和Hadoop做了一次详细的讲解. 以下为原文: 前言 写过几篇关于RHadoop的技术性文章,都是从统计的角度,介绍如何让R语言利用Hadoop处理大数据.今天决定反过

Hadoop集群部署模型纵览

vSphere Big Data Extensions(简称BDE)支持多种部署方式来构建Hadoop集群.按: 存储/计算绑定模型:将存储节点(Data Node)和计算节点(Task Tracker)部署在相同的虚拟机中.这是最直接简单的部署模型,可以用于概念验证和承载小规模集群的数据处理任务. 单一计算模型:只部署计算节点(Job Tracker和Task Tracker)的集群类型. 存储/计算分离模型:将存储节点(Data Node)和计算节点(Task Tracker)部署在不同的虚

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集

云计算环境下架构Hadoop集群的数据分配方式

引言 云计算(Cloud Computing)是一种新兴的商业计算模型.它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力.存储空间和各种软件服务.云计算是网格计算(Grid Computing).分布式计算(Distributed Computing).并行计算(ParallelComputing).效用计算(Utility Computing).网络存储(Network Storage Technologies).虚拟化(Virtualization),负载均衡

大数据虚拟化零起点(六) 使用CLI创建Apache Hadoop集群

在大数据虚拟化基础运维第五步创建Hadoop集群开始之前,我想先说明,这里我不通过BDE提供的可视化界面来创建集群.原因是,我们之前部署好的vApp包括BDE管理服务器,是通过虚机的方式在运行.此时,它还没能跟vSphereWeb Client进行绑定,从而暂时无法交付可视化管理界面.在之后的博客文章里,我将介绍如何交付可视化界面. 但大家不要担心,BDE管理服务器自身已经提供了完备的对外服务接口(RestAPI),用户只需通过命令行(CLI)的方法操控它,就能开始对Hadoop集群进行快速部署

hadoop集群间数据迁移

问题描述 hadoop集群间数据迁移 bin/hadoop distcp hftp://master:50070/user/wp hdfs://ns1/user/ hadoop集群间数据迁移org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException: java.net.SocketTimeoutException: connect timed out

hadoop集群的拓扑结构是怎样的,可能像数据结构中图的结构那样吗?

问题描述 hadoop集群的拓扑结构是怎样的,可能像数据结构中图的结构那样吗? 想要模拟hadoop的调度算法,节点的结构想组织成图的形式,可能吗

在Hadoop集群下的智能电网数据云仓库设计

在Hadoop集群下的智能电网数据云仓库设计 郑柏恒 孟文 易东 梁晓波 针对电网数据规模大.类型多.价值密度小.变化速度快.地理位置离散的特点,为了对这些数据进行有效.可靠.低廉地存储以及快速地访问与分析,满足智能电网运行.检修.效益管理等应用的需求,提出了在Hadoop廉价PC机集群下的智能电网数据云仓库的解决方案,为挖掘海量电网数据提供有效.可靠.低廉的工具.首先分析了电网大数据的特点,再结合IEC61970标准通用信息模型的特点,基于Hadoop框架,设计出满足电网大数据处理需求的电力信