Hadoop大数据分析获本地R语言支持

  随着大家对大数据分析越来越感兴趣,软件供应商Revolution ">Analytics改进了其R语言统计功能旗舰产品,使它能够与Hadoop数据处理平台运行。

  这个新的Revolution R Enterprise 7(RRE 7)还能够使R在Teradata数据库内运行。

  R语言提供了一种方法来对一组数据运行常用统计测试(例如线性和非线性建模、时间序列分析、分类和聚类),通常结果是以图形的形式出现。

  R越来越多地用于复杂的数据分析,即那些超出标准商业智能程序包范围的数据分析。Revolution Analytics公司预计全世界有超过200万人在使用R。

  RRE7包含R算法库——可以跨多个节点并行运行,这与Hadoop管理大数据集的方式相同。RRE7可以被添加到Cloudera CDH3和CDH4 Hadoop发行版,以及Hortonworks数据平台1.3。

  这个新的R库保护最常用的统计和预测分析算法,用于数据处理、数据采样、描述性统计、统计测试、数据可视化、仿真、机器学习和预测模型等任务。

  通过分析节点内的数据,而不是移动数据到其他位置进行分析,基于R的数据分析可以更快地进行。它还允许对一整组数据进行分析,而不是数据的子集或者摘要--企业数据仓库(EDW)通常是采用这样的方式。

  Revolution Analytics希望将R加入到Hadoop和Teradata数据库可以拓宽该语言的使用范围。该公司还设计了一个新的工作流程界面,其中不需要知道如何部署特定的R算法。这缓解了使用Java或者其他语言编程R的麻烦,让其在Hadoop平台运行。

  除了支持这些新的平台,RRE7还采用了一些新的算法和流程。其一是建立Decision Forests的模型集,Decision Forests是用于预测未来结果的机器学习技术。新的Stepwise Regression功能还可以帮助我们自动化选择用于预测模型中最重要的变量。新的Decision Tree可视化可以提供图形化的方式来描述数据集内复杂的关系和相关性。

时间: 2024-10-11 03:57:47

Hadoop大数据分析获本地R语言支持的相关文章

《R与Hadoop大数据分析实战》一1.3 R语言的功能特征

1.3 R语言的功能特征 目前R程序包已经超过3000个,其数量仍在与日俱增.没有任何一本书可以清楚介绍所有这些程序包.本书仅侧重于介绍R的主要特征以及最常用和主流的程序包. 1.3.1 使用R程序包 R程序包都是一些具有函数特性的自含单元,可以看做是若干个函数的集合,类似于Java中的.jar文件.现有关于R程序包的海量书籍所涵盖的应用范围非常广泛,从统计操作和机器学习到丰富的图形可视化和绘制.每个程序包都包括一个或多个R函数.一个R程序包是可供他人重复使用和共享的实体.R用户可以安装拥有他们

《R与Hadoop大数据分析实战》一2.5 在R环境中编写Hadoop MapReduce程序的方式

2.5 在R环境中编写Hadoop MapReduce程序的方式 我们知道对将R工具用于分析的统计学家.网络分析师以及产品经理来说,用MapReduce进行Hadoop大数据处理是一件非常重要的事,因为补充MapReduce的编程知识对于用Hadoop将分析整合到MapReduce来说是必要的.并且,我们知道R是一个一直以来普及程度逐步提升的工具:为了整合R,有许多程序包和函数库一直在改进.因此为了研发基于R和Hadoop计算能力运行的MapReduce算法程序,我们需要R和Hadoop的中间软

《R与Hadoop大数据分析实战》一1.4 Hadoop的安装

1.4 Hadoop的安装 现在假定你已经了解了R语言,知道它是什么,如何安装它,它的主要特点是什么,以及为什么要使用它.现在,我们需要知道R的局限性(这样能更好地引入对Hadoop的介绍).在处理数据前,R需要将数据加载到随机存取存储器(RAM).因此,数据应该小于现有机器内存.对于数据比机器内存还要大的,我们将其看做大数据(由于大数据还有许多其他定义,这只适用于我们现在所说的例子). 为了避免这类大数据问题,我们需要扩展硬件配置,但这只是一个临时解决方案.为了解决这一问题,我们需要使用一个H

《R与Hadoop大数据分析实战》一2.4 编写Hadoop MapReduce示例程序

2.4 编写Hadoop MapReduce示例程序 现在要通过一个很简单且普通的单词统计(word count)来学习MapReduce.该例子的目标是统计每个单词在文章中出现的次数.这些文章作为MapReduce的输入文件. 在该例中,已经准备了一些文本文件,我们希望计算所有单词在这些文件中出现的频率.我们通过Hadoop MapReduce来进行设计. 本节中,将使用旧版API接口学习Hadoop MapReduce编程.假设读者已经配置了Hadoop的环境变量(请参考第1章的内容).同时

《R与Hadoop大数据分析实战》一导读

前 言 组织获得的数据量每一天都在成倍增加.现在组织可以存储大量信息在低成本平台上,例如Hadoop. 如今这些组织面临的难题是如何处理这些数据以及如何从这些数据中获取关键的见解.于是R应运而生.R是一个令人惊讶的工具,它是一个在数据中能够运行先进统计模型的单元,它将原始模型翻译成丰富多彩的图形和可视化视图,而且它有很多和数据科学相关的功能. 然而,R的一个主要缺点是它的可扩展性较差.R的核心技术引擎可以加工和处理非常有限的数据量.正因为在大数据处理中Hadoop十分流行,所以为了可扩展性,下一

《R与Hadoop大数据分析实战》一1.1 安装R

1.1 安装R 可以通过访问R的官方网站下载相应的版本.这里提供了对应三种不同操作系统的下载步骤,包括在Windows.Linux和Mac上安装R.下载最新版本的R,其中包括所有最新的补丁和错误解决方案.对于Windows操作系统,请执行以下步骤: 访问www.r-project.org. 点击CRAN,选择CRAN镜像(CRAN mirror),并选择你的Windows操作系统(捆绑到Linux:Hadoop通常在Linux环境下运行). 从镜像中下载最新的R版本. 执行下载的.exe程序,安

《R与Hadoop大数据分析实战》一2.1 MapReduce基础概念

2.1 MapReduce基础概念 如果没有使用过集群或信息传递接口(Message Passing Interface,MPI),那么理解MapReduce基础概念将不会是一件容易的事.更多的实际应用是数据不存放在一个硬盘中而是存放于分布式文件系统中(Distributed File System,DFS),或存放于由Hadoop技术实现的分布式软件中.MapReduce同时也是一个编程模型,它以一种分布式方法进行工作.其中包括信息传递接口(MPI)和同步并行计算模型(Bulk Synchro

《R与Hadoop大数据分析实战》一第2章 编写Hadoop MapReduce程序

第2章 编写Hadoop MapReduce程序 在第1章中,我们学习了如何搭建R和Hadoop开发环境.既然我们对大数据分析感兴趣,接下来就学习如何使用Hadoop MapReduce进行大数据处理.在本章中,我们要讨论MapReduce的基础概念,为何它是不可或缺的,以及如何在Apache Hadoop上进行MapReduce编程等内容.本章节将会涉及如下内容:MapReduce基础概念Hadoop MapReduce技术Hadoop MapReduce原理编写Hadoop MapReduc

《Hadoop大数据分析与挖掘实战》——2.1节概述

2.1 概述2.1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.Hadoop以分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce(Google MapReduce的开源实现)为核心,为用户提供了系统底层细节透明的分布式基础架构.分布式文件系统HDFS的高容错性.高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式文件系统:MapReduce分布式编程模型允许用户在不了解分布式系统底层