Hadoop处理多个数据库数据问题？

问题描述

场景：我们在网络上面有多台MySql数据库，我们想要使用Hadoop处理数据库中的数据。对于如何处理现在有两种意见：1.要把数据从Mysql中取出，然后导入到Hadoop的集群（集群和Mysql数据库服务器不在同一个地方）中，然后进行处理，将处理的结果存储到Mysql数据库或者是Hbase中。2.直接用Hadoop操作数据库。使用Hadoop的DBInputFormat读取数据库中的数据。具体的是这样的，就是将Mysql数据库所在的服务器，部署成Hadoop集群的一个节点。在Hadoop分配任务时，将任务分配到有相应数据的节点上，在通过API取数据，并执行数据分析的操作。我现在是认为，第二种不太可行，但是我的大多数同学和老师都支持第二种，我就想问一下，这两种应该哪种更适合。还有就是第二种，我记得那个操作数据库的API，是在Job启动的时候就已经配置好了吧，每次只能使用一个数据库中的数据吧。求解惑，谢谢了

解决方案

解决方案二：
第二种。。没太明白，可能没用过你说的方式，不过第一种很明显我觉着很好实现，就是用sqoop直接导出到hdfs上，然后自己写mapreduce处理完数据，再sqoop出到数据库就可以了。
解决方案三：
如果你的mysql只有一台而你的hadoop集群是三台以上组成的条件是这4台机器的磁盘性能都是差不多的那么第二种方式属于瞎折腾如果你们老师不服，让他来找我

时间： 2024-08-01 03:46:13

Hadoop处理多个数据库数据问题？的相关文章

IBM面向Hadoop的PureData推大数据机

随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显.为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求. IBM软件信息管理部门总经理Bob Picciano表示: 企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用. 在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visi

卢东明：Hadoop不能适用所有大数据场

文章讲的是卢东明:Hadoop不能适用所有大数据场,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下: ▲SAP亚太区数据库解决方案技术

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,大讲台了解这一情况后专门在网上开通了这一门大数据培训课程,下面来介绍一下关于Hadoop环境中管理大数据存储技巧吧. 1.分布式存储传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能. 虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上.但这也

MyEclipes下执行Hive语句查询Hbase数据库数据

前几天有一个top100的案例分享,全程听了各个公司架构组的一些案例技术分享,发现大家都在大数据方面投入很大,相比当当,58,阿里巴巴,Facebook,Google这些公司.新浪的分享者比较保守,很多不算牵扯到细节都系都说不方便说,其实技术都是那些技术,只是业务不同产生很多不同的架构,感觉没必要. 闲话不多说,最近完成了在MyEclipes完成了hive操作Hbase数据库数据,直接上代码定义枚举. public enum SqlType { ALLORDERNUMBER, DAYORDER

Hadoop之父勾勒大数据平台的未来

Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架.Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架构师)Doug Cutting表示,他相信Hadoop有一个超越批处理的未来. Cutting表示:"批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体.Hadoop将成为企业未来的主流数

当Hadoop SQL工具与大数据框架携手同行

目前,SQL-on-Hadoop的采用率仍然偏低,但是其发展似乎是与Hadoop本身的采用有着相似的步调.2015年由IT研究和教育机构TDWI进行的一项对新兴技术的调查证实了这一结论. 在320位受访者中只有16%的人表示他们所在的企业正在使用商业SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分: 344位受访者中有22%的人说Hadoop SQL技术正用于管理数据.在后一种情况中,部署水平与前一种是接近的,而这也符合调查当时以及计划三年内的情况,这表明大多数Hadoop用户同

Hadoop之父勾勒大数据平台未来

"大数据不是炒作,也不是泡沫.Hadoop在未来将继续追随谷歌的脚步."Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示. 作为一个批处理计算引擎,Apache Hadoop是大数据核心的开源软件框架.有一种说法是,Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理.事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说:"相信Hadoo

Hadoop连载系列之六：数据收集分析系统Chukwa

系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建.Zookeeper集群搭建.HBase分布式部署等.当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加.Apache开发出一个开源的数据收集和分析系统-Chukwa来处理Hadoop集群的数据.Chukwa有几个非常吸引人的特点:它架构清晰,部署简单;收集的数据类型广泛,具有很强的扩展性;与 Hadoop 无缝集成,能完成海量数据的收集与整理. 1 Chukwa简介 ----------------

Hadoop架构下数据挖掘与数据迁移系统的设计与实现

Hadoop架构下数据挖掘与数据迁移系统的设计与实现上海交通大学吕明育通常情况下企业的信息系统会包含多个业务系统,每个业务系统包含自身的一套在线业务系统.备份系统和归档系统,系统管理复杂,易造成存储空间的浪费,并且系统扩展性较差.针对以上缺点,本文设计并实现了一个分层存储系统,采用一个大数据平台对多个业务系统数据实行统一管理,将每个业务系统的备份系统和归档系统合二为一.此分层存储系统提供基于Hadoop架构的数据挖掘和数据迁移系统的方案.具体内容如下:(1)分析了MapReduce分布式

猜你喜欢

github神器--Atom编辑器初体验

Atom 1.0正式式版已经出来好几天,自从听说github出了这神器之后,一直想体验一吧,这两天终于体验上. 下载: https://atom.io/ 其实,我的网速还不错,但总是下载到一半 ...

第十九章-Delphi自定义部件开发（一）(1)

Delphi除了支持使用可视化部件所见即所得地建立应用程序外,还支持为开发应用而设计自己的部件. 在本章中将阐述如何为Delphi应用程序编写部件.这一章将达到两个目的: ● 教你如何自定义部件 ● ...

CSS3网页制作实例:纯CSS3打造的精致时钟

文章简介:在css3的渲染下,拥有华丽的视觉界面,这个纯css3精致时钟,你值得拥有! 今天为大家分享一个纯CSS3打造的精致时钟,没有用到任何的图片和 js .该时钟有时针.分针以及秒针,在时钟的圆 ...

SQL Server连接失败错误分析与排除(1)

在使用 SQL Server 的过程中,用户遇到最多的问题莫过于连接失败了.一般而言,有两种连接SQL Server 的方式,一是利用 SQL Server 自带的客户端工具,如企业管理器.查询分析器 ...

oracle里的常用命令

oracle 第一章:日志管理 1.forcing log switches sql> alter system switch logfile; 2.forcing checkpoints s ...

Flash MX 2004实例制作视频教程：情人节贺卡(2)

教程|视频教程第 77 节:情人节贺卡(2) 课程目标:制作<情人节贺卡>贺卡课程要点:使用Flash MX 2004制作<情人节贺卡>贺卡.实例教程共四节,这是第二节.同 ...

linux查看目录大小及硬盘大小

linux查看目录大小及硬盘大小的命令: # du -ks ---in all # du -k ---every last du和df命令都被用于获得文件系统大小的信息:df用于报告文件系统的总块 ...

Win7任务栏如何停止窗口自动移动

第一步.在"开始"菜单中,找到"附件"-"轻松访问"-"轻松访问中心"并点击打开. 第二步.在"轻松访问中 ...

Win8如何开始菜单与关机方式

微软在Win8以前的操作系统中,都设置了非常明显的开始菜单和关机相关的按钮.但在最新的Win8操作系统中,似乎找不到如同以往系统中的开始菜单和关机按钮了. Win8开始菜单被藏起来了? 虽然Win ...

Windows 8分区大小安全快速调整

微软操作系统Windows 8的拥有了很多先进的功能,如基于触摸的界面Metro风格,Windows商店,等等.然而,与Windows 7相比,它在磁盘管理上没有太大的突破.Windows 8内嵌 ...

如何利用360杀毒软件来删除无法删除的文件？

平常我们使用完某些文件之后,会发现一些文件怎么删也删除不了,那么该如何解决这个问题呢?下面就利用360杀毒软件教大家一个方法. 方法步骤 1.下载安装360杀毒软件,打开360杀毒软件,选择[功能 ...

Ubuntu 的辉煌走到尽头了？

如果在高中有什么教训你必须吸取的话,那就是这个:"流行"这玩意儿就是善变的情妇.总之,"流行"等同于变化无常--就像Ubuntu在最近几周内向我们恰当地证明的那 ...

设计-算法的输入输出数据结构

问题描述算法的输入输出数据结构在功能设计模块输入数据设计:公物申购信息集合{申请人+公物名称+数量+申请时间} 输出数据设计:公物申请的结果提示:"待审核" 但老师说这样写 ...

【AI World 2017世界人工智能大会TOP 10榜单揭晓】巨星谷歌领衔，中国企业雄起，胡郁等感言

AI World 2017 世界人工智能大会"AI 奥斯卡"颁奖晚宴8日晚在国家会议中心隆重举行,流光溢彩中,AI World 2017 世界人工智能大会 AI 奥斯卡五大奖项:A ...

十万火急！求大神指导volley框架问题

问题描述十万火急!求大神指导volley框架问题十万火急!求大神指导为什么volley框架解析数据只能第一次成功第二次以后就都不走Map getParams(),直接都还用第一次的map数据,怎 ...

拿什么来拯救你我那走在创业路上的客户们

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅拿什么来拯救你,我那走在创业路上的 ...

怎么注册阿里云帐号？

按下面说明注册账号以后,请先到阿里云官网领取幸运券,除了价格上有很多优惠外,还可以参与抽奖. 登录万网首页(百度搜索"万网",进入万网官网),点击上方的注册按钮进入用户信息登记 ...

SQL Select查询原理--查询语句执行原则（基础）

原文地址:点击打开链接 1.单表查询:根据WHERE条件过滤表中的记录,形成中间表(这个中间表对用户是不可见的):然后根据SELECT的选择列选择相应的列进行返回最终结果. 1)简单的单表查询 SEL ...

百度博士后工作站招收首名研究员

赵世奇(新浪科技配图) 早报讯赵世奇是一名刚刚从哈尔滨工业大学计算机科学与技术学院毕业的博士研究生,搜索技术和自然语言处理是他主要的研究方向,能到全球领先的搜索引擎公司--百度开展博士后研究是他一直 ...

printf-求大神解答，关于内存解析以及类型转换的编译器底层实现，图中的结果请给我一个完整的解释，谢谢

问题描述求大神解答,关于内存解析以及类型转换的编译器底层实现,图中的结果请给我一个完整的解释,谢谢 #if 1 #include using namespace std; int main() { ...

回调慢-afnetworking 回调问题

问题描述 afnetworking 回调问题 AFHTTPRequestOperation *fileUploadOp = [[AFHTTPRequestOperation alloc]initWit ...

在攻与防的博弈中寻求企业最佳防护实践

本文讲的是 : 在攻与防的博弈中寻求企业最佳防护实践 , [IT168 编译]黑帽子预算已经成为企业常见的防守策略,在这种方法中,企业试图提高攻击者的攻击成本来减少攻击.同时,攻击者也在试图让企业 ...

Java实现几种常见排序算法代码_java

稳定度(稳定性)一个排序算法是稳定的,就是当有两个相等记录的关键字R和S,且在原本的列表中R出现在S之前,在排序过的列表中R也将会是在S之前. 排序算法分类常见的有插入(插入排序/希尔排序).交换( ...

php图片上传实现代码

先了解files函数 $_files数组内容如下: $_files['myfile']['name'] 客户端文件的原名称. $_files['myfile']['type'] 文件的 mim ...

简单的PHP实现网络刷投票程序

PHP刷投票,让你高居榜首!本文附上刷票方法和防御策略. 案例为一个半月以前.没有及时放出原因有二,一是因为博客域名备案没有下来,没有心情写东西.二是最主要的,及时放出对案例网站有严重的损害,不是我等 ...

asp.net页面调用redirect,execute,transfer

asp.net页面调用redirect,execute,transfer 当需要把用户跳转到另一台服务器上的页面的时候使用redirect 当需要把用户跳转到非aspx页面时候,如html ...

关于java问题-切割字串的問題(java)

问题描述切割字串的問題(java) 我想要做一個切token的程式, 請問要怎麼用java切割字串? 如果我想跟hash要怎麼做? 解决方案用string.split函式.你可以指定分割符或者用正 ...

谷歌新专利：双屏E-Ink电子书设计

最近,谷歌曝光了一款新的专利,E-ink双屏幕设备,他可以像电子书一样折叠,另外还配备了一个摄像头.如果产品发布,将成为全球首款可以折叠的E-Ink屏幕电子书.不知道谷歌为什么要设计这样的双屏产品, ...

餐饮管理软件饭菜先生图文使用指南（六）会员管理

饭菜先生,http://www.aliyun.com/zixun/aggregation/18395.html">完全免费的餐饮收银管理软件,国内中小餐饮软件的最佳软件. 适合各类 ...

如何快速击破PaaS安全三大挑战

为了避免基础架构即服务(IaaS)的安全问题,很多担心安全的企业使用一个简单的解决方案:在它们进入云端之前加密对象.不幸的是,这种方法对于减缓平台即服务(PaaS)的安全问题并不是最优的方案.PaaS ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.028 s.