Hadoop处理多个数据库数据问题?

问题描述

场景:我们在网络上面有多台MySql数据库,我们想要使用Hadoop处理数据库中的数据。对于如何处理现在有两种意见:1.要把数据从Mysql中取出,然后导入到Hadoop的集群(集群和Mysql数据库服务器不在同一个地方)中,然后进行处理,将处理的结果存储到Mysql数据库或者是Hbase中。2.直接用Hadoop操作数据库。使用Hadoop的DBInputFormat读取数据库中的数据。具体的是这样的,就是将Mysql数据库所在的服务器,部署成Hadoop集群的一个节点。在Hadoop分配任务时,将任务分配到有相应数据的节点上,在通过API取数据,并执行数据分析的操作。我现在是认为,第二种不太可行,但是我的大多数同学和老师都支持第二种,我就想问一下,这两种应该哪种更适合。还有就是第二种,我记得那个操作数据库的API,是在Job启动的时候就已经配置好了吧,每次只能使用一个数据库中的数据吧。求解惑,谢谢了

解决方案

解决方案二:
第二种。。没太明白,可能没用过你说的方式,不过第一种很明显我觉着很好实现,就是用sqoop直接导出到hdfs上,然后自己写mapreduce处理完数据,再sqoop出到数据库就可以了。
解决方案三:
如果你的mysql只有一台而你的hadoop集群是三台以上组成的条件是这4台机器的磁盘性能都是差不多的那么第二种方式属于瞎折腾如果你们老师不服,让他来找我

时间: 2024-08-01 03:46:13

Hadoop处理多个数据库数据问题?的相关文章

IBM面向Hadoop的PureData推大数据机

随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显.为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求. IBM软件信息管理部门总经理Bob Picciano表示: 企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用. 在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visi

卢东明:Hadoop不能适用所有大数据场

文章讲的是卢东明:Hadoop不能适用所有大数据场,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下: ▲SAP亚太区数据库解决方案技术

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,大讲台了解这一情况后专门在网上开通了这一门大数据培训课程,下面来介绍一下关于Hadoop环境中管理大数据存储技巧吧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能. 虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上.但这也

MyEclipes下执行Hive语句查询Hbase数据库数据

前几天有一个top100的案例分享,全程听了各个公司架构组的一些案例技术分享,发现大家都在大数据方面投入很大,相比当当,58,阿里巴巴,Facebook,Google这些公司.新浪的分享者比较保守,很多不算牵扯到细节都系都说不方便说,其实技术都是那些技术,只是业务不同产生很多不同的架构,感觉没必要. 闲话不多说,最近完成了在MyEclipes完成了hive操作Hbase数据库数据,直接上代码 定义枚举. public enum SqlType { ALLORDERNUMBER, DAYORDER

Hadoop之父勾勒大数据平台的未来

Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架.Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架构师)Doug Cutting表示,他相信Hadoop有一个超越批处理的未来. Cutting表示:"批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体.Hadoop将成为企业未来的主流数

当Hadoop SQL工具与大数据框架携手同行

目前,SQL-on-Hadoop的采用率仍然偏低,但是其发展似乎是与Hadoop本身的采用有着相似的步调.2015年由IT研究和教育机构TDWI进行的一项对新兴技术的调查证实了这一结论. 在320位受访者中只有16%的人表示他们所在的企业正在使用商业SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分: 344位受访者中有22%的人说Hadoop SQL技术正用于管理数据.在后一种情况中,部署水平与前一种是接近的,而这也符合调查当时以及计划三年内的情况,这表明大多数Hadoop用户同

Hadoop之父勾勒大数据平台未来

"大数据不是炒作,也不是泡沫.Hadoop在未来将继续追随谷歌的脚步."Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示. 作为一个批处理计算引擎,Apache Hadoop是大数据核心的开源软件框架.有一种说法是,Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理.事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说:"相信Hadoo

Hadoop连载系列之六:数据收集分析系统Chukwa

系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建.Zookeeper集群搭建.HBase分布式部署等.当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加.Apache开发出一个开源的数据收集和分析系统-Chukwa来处理Hadoop集群的数据.Chukwa有几个非常吸引人的特点:它架构清晰,部署简单;收集的数据类型广泛,具有很强的扩展性;与 Hadoop 无缝集成,能完成海量数据的收集与整理. 1 Chukwa简介 ----------------

Hadoop架构下数据挖掘与数据迁移系统的设计与实现

Hadoop架构下数据挖掘与数据迁移系统的设计与实现 上海交通大学  吕明育 通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统.备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差.针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一.此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案.具体内容如下:(1)分析了MapReduce分布式