[大数据之Sqoop] —— Sqoop初探

Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中。

Sqoop也是基于Mapreduce来做的数据导入。

关于sqoop的原理

sqoop的原理比较简单,就是根据用户指定的sql或者字段参数,从数据库中读取数据导入到hive或者hdfs中。也支持基于数据库导出工具导出,不过受限于数据库的版本。

在导出的过程中,sqoop会自动切分mapreduce任务。比如某个字段的主键是从1到1000,那么当设置num-mappers为2时,第一个mr任务会读取1-500的数据,第二个mr任务会读取500-1000的数据。如果是字符串还有其他的划分方法.

关于架构

sqoop目前有两个大版本,第一个版本比较简单,只能使用命令行

第二个版本引入了sqoop server,统一处理连接等信息,并提供多种连接方式,还引入了权限控制,另外规范了连接的各项配置。

官方文档

没啥说的,学东西,还得阅读官方文档,链接参考这里

本文转自博客园xingoo的博客,原文链接:[大数据之Sqoop] —— Sqoop初探,如需转载请自行联系原博主。

时间: 2024-10-31 11:07:08

[大数据之Sqoop] —— Sqoop初探的相关文章

大数据道场(HDP SandBox) 初探

这里的大数据道场是以HDP sandbox 为基础的,安装好了virtual box,导入了sandbox镜像之后,启动虚拟机,来看看我们的大数据道场吧. 访问方式 通过SSH的终端访问是不二之选 ssh root@127.0.0.1 -p 2222  输入用户名/密码后就可以进入我们的道场主机了,命令交互与在一台ubantu Linux 主机上没什么不同. 如果不喜欢ssh,或者是windows的用户,也可以使用WEB Shell. 在浏览器中输入: http://127.0.0.1:4200

大数据同步工具DataX与Sqoop之比较

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据http://www.aliyun.com/zixun/aggregation/34332.html">处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成.Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以

[大数据之Sqoop] —— 什么是Sqoop?

介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具.你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中:也可以把数据从hdfs中导出到关系型数据库中.sqoop通过Hadoop的MapReduce导入导出,因此提供了很高的并行性能以及良好的容错性. sqoop适合以下的人群使用: 系统和应用开发者 系统管理员 数据库管理员 数据分析师 数据工程师 支持的版本 本文档是依据sqoop v1.4.6翻译的.目前最新的版本是sqoop2,变化有点

地球观测领域的若干大数据问题初探

地球观测领域的若干大数据问题初探 李国庆研究员 中国科学院遥感与数字地球研究所 --地球观测领域为什么会有大数据问题?--地球观测大数据问题的辨析--若干大数据应用案例的场景和挑战分析 地球观测领域的若干大数据问题初探

公众互助云简介:大数据时代下新形云计算模式初探

最近在看商业模式相关的书籍,脑子里有了一个云计算模式,思考了很久,仍然模糊,还是分享出来梳理一下自己的思路,也希望听取不同声音和意见,感觉自己才疏学浅,可能下文会有一些技术问题和误区,欢迎各界人士批评指正. 引言 在互联网和全球化时代下,有两大技术推进着社会历史车轮的前进.一个是云计算的应运而生,IAAS.PAAS.SAAS等服务模式也随之发展起来,传统产品模式正在向云端服务模式转变.另一个是大数据分析与处理技术,可有效处理信息数据爆炸式增长,比如构建高扩展性.容错性的GFS或HDFS分布式文件

理财农场大数据初探之路

 概述 不以需求为目的的技术研究都是耍流氓     由于公司业务的快速发展,以及运营部门的需求,需要实现投资用户的月账单功能. 数据背景     目前平台投资用户57万多,投资流水数据已超过千万级,另外还需要统计用户的充值.提现.回款本金.利息.奖励.红包.区分各种产品的分类统计(定期.活期).历史投资分布.收益趋势.打败多少用户.月度理财之星等等指标. 技术选型背景        在此之前就有类似需求,统计2016年投资用户的年度账单.当时部门几个核心的人员也针对年度账单做了分析及技术选型,有

大数据在统计中的应用初探

大数据是信息时代的必然产物,是人们在日常工作.学习.生活中,使用以现代网络.特别是以互联网为特征的现代信息技术和其他各种电子计量设备而产生的海量信息.对海量信息的采集.存储.分析.整合.控制而得到的数据就是大数据.中央<关于深化统计管理体制改革提高统计数据真实性的意见>中指出,大力推动大数据在政府统计工作中的应用,将电子化行政记录和各类交易.交互.传感等大数据作为政府统计基础数据的重要来源,努力构建现代化新型统计调查体系. 大数据统计应用有什么意义?还有哪些问题和障碍?如何加快大数据在统计工作

大数据学习之路(持续更新中...)

在16年8月份至今,一直在努力学习大数据大数据相关的技术,很想了解众多老司机的学习历程.因为大数据涉及的技术很广需要了解的东西也很多,会让很多新手望而却步.所以,我就在自己学习的过程中总结一下学到的内容以及踩到的一些坑,希望得到老司机的指点和新手的借鉴. 前言 在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值.一方面,以前IT行业发展没有那么快,系统的应用也不完善,数据库足够支撑业务系统.但是随着行业的发展,系统运行的时间越来越长,搜集到的数据也越来越多,传统的数据库已经不能支撑

教你如何挑选合适的大数据或Hadoop平台

今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合. Hadoop平台的多种选择 下图展示了Hado