部署Hadoop的公司要慎重考虑

  近些年,Hadoop和“走向大数据分析引擎”一样,受到颇多赞誉。对很多人来说,Hadoop就意味着大数据技术。但其实开源的分布式处理框架未必能解决所有的大数据问题。这就要求想要部署Hadoop的公司慎重考虑——什么时候应用Hadoop,什么时候应用其他产品。

  举例来讲,用Hadoop处理大规模无结构数据或半结构数据可以说绰绰有余。但它处理小数据集的速度却鲜为人知。而这一点就限制了Hadoop在Metamarkets集团的应用。Metamarkets集团位于旧金山,为在线广告提供实时市场营销分析。

  Metamarkets CEO Michael Driscoll透露,在时间不紧的情况下,公司使用Hadoop处理庞大的分布式数据,包括运行日终报表以回顾一天的交易额,或浏览几个月前的历史数据。

  但在其提供给客户的核心业务——运行实时分析过程中,Metamarkets并没有用到Hadoop。Driscoll认为最佳的方法是在一个数据库中运行批处理作业查看每一个文件。归根结底,这是一种取舍:为了在数据点之间建立深度关联,Hadoop牺牲了速度。Driscoll表示:“使用Hadoop就像交了个笔友,你写封信给他,寄过去,过几天才得到回复。这和(短信)或邮件的体验相去甚远。”

  10gen公司的产品营销部经理、同时也是MongoDB NoSQL 数据库开发者Kelly Stirman表示,在线上,快速的反应是至关重要的,而Hadoop则受到时间的掣肘。例如,像产品推荐引擎这样的在线分析应用,依赖的是对少量信息的快速处理,但Hadoop却不能有效的做到这一点。

  不考虑置换数据库

  因为开源技术大大降低了技术成本,所以或许有些企业考虑报废传统数据仓库,去选择Hadoop集群。但IDC公司的市场研究分析师Carl Olofson则认为,这两者根本没有可比性。

  Olofson表示,关系数据库为大多数数据仓库提供动力,它用于容纳一段时间内以固定频率汇入的数据流,比如日常业务流程中的交易记录。另一方面,Hadoop擅长的是处理大量累积数据。

  相关阅读:

  Hadoop 2.0 安装向导 (0.23.x) http://www.linuxidc.com/Linux/2012-05/61463.htm

  Hadoop 1.2.1 单节点安装(Single Node Setup)步骤 http://www.linuxidc.com/Linux/2013-08/89377.htm

  在CentOS上安装Hadoop http://www.linuxidc.com/Linux/2013-08/88600.htm

  Ubuntu 12.04安装Hadoop http://www.linuxidc.com/Linux/2013-08/88187.htm

  CentOS 6.3 x86_64安装与配置Hadoop-1.0 http://www.linuxidc.com/Linux/2013-07/87959.htm

  Hadoop入门–Hadoop2伪分布式安装:http://www.linuxidc.com/Linux/2013-06/86403.htm

  Hadoop2.2.0单节点安装及测试:http://www.linuxidc.com/Linux/2013-10/91911.htm

时间: 2024-09-29 17:56:27

部署Hadoop的公司要慎重考虑的相关文章

CIO部署Hadoop前需要考虑哪些因素

当"大数据"成为人们话题时,Apache Hadoop经常是紧追其后.有一个很好的理由来说明这个问题:Hadoop有一个不惧导入不同数据结构的文件系统,还有一个大规模并行处理系统(MPP)来快速处理庞大数据集.况且,由于Hadoop建立在商用硬件和开源软件基础上,它兼具低廉和可扩展的优势. 这些特点使得Hadoop架构成为很吸引CIO的一项技术,特别在他们面临着既要引进更多差异化.新型数据,又要控制成本的压力情况下更是如此.Forreste的企业架构师Brian Hopkins认为,仍

初学hadoop经历及使用Ambari快速部署Hadoop大数据环境介绍

前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的http://www.aliyun.com/zixun/aggregation/14417.html">Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(Cen

部署Hadoop相关的四个解决方案

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     Apache Hadoop距离企业级应用可以说是越来越近了,不少大型公司在他们的系统中都部署了Hadoop的相关解决方案.然而对于公司的高层领导来说,它只是一个符号化的名词. Hadoop到底适不适合我们企业?部署Hadoop到底划不划算?它能给我们带来什么?对于究竟要不要投资这项技术,你需要向领导解释清楚.本文就介绍了一些关于Hadoop的常见问题,希望能

linux-在Linux部署hadoop,启动出错

问题描述 在Linux部署hadoop,启动出错 启动时整个输出很多信息,正常情况下,应该只有几行,启动了namenode.datanode等, 但是我在启动的时候却一直报'ssh: Could not resolve hostname ' 具体信息如下: [root@hbase ~]# start-dfs.sh with: ssh: Could not resolve hostname with: Temporary failure in name resolution it: ssh: Co

mapreduce-solaris部署hadoop集群跑wordcount报错

问题描述 solaris部署hadoop集群跑wordcount报错 solaris部署hadoop集群跑wordcount报错, 信息如下: [admin@4bf635fa-5f3e-4b47-b42d-7558a6f0bbff ~]$ hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output 15/08/20 00:48:09 WARN

批量部署Hadoop集群环境(1)

批量部署Hadoop集群环境(1) 1. 项目简介: 前言:云火的一塌糊涂,加上自大二就跟随一位教授做大数据项目,所以很早就产生了兴趣,随着知识的积累,虚拟机已经不能满足了,这次在服务器上以生产环境来部署Hadoop.已经搭建完毕,分享出来供大家参考. 问题:看到Hadoop部署在一些资料上很是繁琐,一些简单的部署方法只是玩具,无法满足企业的部署条件,如果一台台服务器去部署,显然是不可行. 解决:在学习及其他资料后,准备以<Apache Hadoop Yarn: Moving Beyond Ma

单节点部署Hadoop教程

搭建HDFS 增加主机名 我这里仅仅增加了master主机名 [root@10 /xinghl/hadoop/bin]$ cat /etc/hosts 127.0.0.1 localhost 10.0.67.101 ::1 localhost 10.0.67.101 10.0.67.101 master 10.0.67.101 如果配置远程集群,则需要配置SSH 我这里就是单节点测试玩玩,所以这步骤先省略了. 解压缩hadoop到/usr目录下 创建几个需要的目录 mkdir /dfs mkdi

利用Cloudera部署Hadoop规划与安装

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架.MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理,目前最成功的应用是分布式搜索引擎.随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算.近两年尤其是今年国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类的

大数据虚拟化实例:Tarball方式部署Hadoop发行版

在博文<灵活管理Hadoop各发行版的运维利器>中,我们介绍了vSphere Big Data Extensions(BDE)是解决企业部署和管理Hadoop发行版的利器,通过它可以很方便可靠地运维Hadoop多个主流的商业发行版(包括社区的Apache Hadoop).本文的内容围绕上述主题,以具体实例深入讲解如何做到灵活部署和管理Hadoop发行版的. 实例:Tarball方式部署GPHD1.2发行版 首先,需要下载GPHD 1.2发行版到本地.这里是Tarball的下载地址,完成后解压缩