使用Apache Hadoop、Impala和MySQL进行数据分析

　　">Apache Hadoop是目前被大家广泛使用的数据分析平台，它可靠、高效、可伸缩。Percona公司的Alexander Rubin 最近发表了一篇博客文章介绍了他是如何将一个表从MySQL导出到Hadoop然后将数据加载到Cloudera Impala并在这上面运行报告的。在Alexander Rubin的这个测试示例中他使用的集群包含6个数据节点。下面是具体的规格：

　　数据导出有很多方法可以将数据从MySQL导出到Hadoop。在Rubin的这个示例中，他简单地将ontime表导出到了一个文本文件中：select * into outfile '/tmp/ontime.psv'

　　FIELDS TERMINATED BY ','

　　from ontime;你可以使用“|”或者任何其他的符号作为分隔符。当然，还可以使用下面这段简单的脚本直接从www.transtats.bts.gov上下载数据。

　　载入Hadoop HDFS

　　Rubin首先将数据载入到了HDFS中作为一组文件。Hive或者Impala将会使用导入数据的那个目录，连接该目录下的所有文件。在Rubin的示例中，他在HDFS上创建了/data/ontime/目录，然后将本地所有匹配On_Time_On_Time_Performance_*.csv模式的文件复制到了该目录下。

　　在Impala中创建外部表

　　当所有数据文件都被载入之后接下来需要创建一个外部表：

时间： 2024-09-17 01:38:50

使用Apache Hadoop、Impala和MySQL进行数据分析的相关文章

《Spark与Hadoop大数据分析》一一2.1　Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

《Spark与Hadoop大数据分析》一一第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具.本章分为以下几个子主题:介绍 Apache Hadoop介绍 Apache Spark讨论为什么要配套使用 Hadoop 和 Spark安装 Hadoop 和 Spark 集群

《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具. 本章分为以下几个子主题:

《Spark与Hadoop大数据分析》——2.1　Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

主题这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域.这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力. 引言最初把hadoop文件格式和存储引擎做比较的想法是在初始系统修订版之一的驱动下完成的 –这个系统是在CERN中大规模调节Hadoop-ATLA

大数据的救世主：Apache Hadoop和Hive

Apache Hadoop和MapReduce吸引了大量大数据分析专家和商业智能专家的眼球.然而将Hadoop分散文件系统广泛化,或能用Java语言编写或执行Mapreduce工作则需要真正严格上乘的软件开发技术.Apache Hive将是唯一的解决办法. Apache软件基础工程Hive的数据库组成部分,也是基于云的Hadoop生态系统,提供了基于语境的查询语句称作Hive查询语句.这套语句将SQL类查询语句自动翻译成MapReduce工作指令. 相关数据库,如IBM DB2,Oracle和S

满满的技术干货！Hadoop顶级会议Apache Hadoop Summit精华讲义分享

Apache Hadoop Summit是Hadoop技术的顶级会议,这里大咖云集,一同探讨世界上最新的Hadoop发展动态以及产品应用和技术实践. 本文整理了Apache Hadoop Summit Tokyo 2016上的精选演讲的讲义,无论是你想要的是Hadoop发展前沿,是Hadoop优化技巧,还是技术最佳实践,统统都在这里! [Hadoop Summit Tokyo 2016]Apache NiFi速成课 [Hadoop Summit Tokyo 2016]重建大规模Web跟踪设施

Google Dremel vs. Apache Hadoop

Naresh Kumar在介绍两者之间的区别之前,首先针对Google Dremel进行简单的描述: 什么是Google Dremel? Google Dremel是个可扩展的.交互式的即时查询系统,专注于只读嵌套(nested)数据的分析.通过集合不同层次的执行树和柱状的数据布局,他能够在几秒内完成在万亿张表上的聚合查询.系统可以扩展到成千上万的CPU上,满足Google上万用户操作PB及的数据. Apache Hadoop vs Google Dremel:两者之间的不同 Dremel是个数

【Hadoop Summit Tokyo 2016】基于容器规格的Apache Hadoop/Spark集群框架

本讲义出自Akiyoshi SUGIKI与Phyo Thandar Thant在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hokkaido大学的学术云的发展历史以及对于大数据分析的支撑情况,并介绍了基于容器规格的Apache Hadoop集群框架,以及对于Hadoop的多目标优化方案.

猜你喜欢

10、spss做最优尺度分析

上一节我们讨论了对于两组分类变量,如何通过主成分分析法进行降维,从而在一个二维的平面上直观的表现出两组变量的类别之间有什么关联.这一节我们就来讨论要怎么通过最优尺度分析来解决多组分类变量之间的关联分析 ...

session全教程(二)

session|教程二.php3,4中session的实现在php3中是没有session这种东东的,但我们又需要,怎么办呢?别急,有很多人替你做了这些,这其中最有名的要算phplib了.你可以去 ...

Photoshop将图片处理为作剪纸艺术

中国的剪纸起源于汉代至南北朝时期,然而真正繁盛却是在清朝中期以后.古老的剪纸多在乡间,以剪刀铰出为主:剪纸进入城市后,剪纸艺人为了省工,一刀多张便改为刻刀雕刻为主,作品更加精巧.如今剪纸创作工具已经不 ...

很多人喜欢PHP：论 Web 2.0 时代PHP的地位

随着所谓WEB2.0时代来临,程序员从来没有时代象今天那样受人注意,很多程序员对于语言的争论也从来没有象今天这样剧烈,JAVA.C++.PHP.ASP等等,最近又出来一个Ruby,加上Python.无 ...

Java开发中的线程安全选择与Swing

Swing API的设计目标是强大.灵活和易用.特别地,我们希望能让程序员们方便地建立新的Swing组件,不论是从头开始还是通过扩展我们所提供的一些组件. 出于这个目的,我们不要求Swing组件支持多 ...

几种方法固定.net gridview列宽

1.在编辑列里面,直接就有设置列宽度的!如果你不想单元格的内容把单元格撑大,那么就加一个样式 <style>table{table-layout:fixed}</style>, ...

超级巡警挂马检测系统

超级巡警挂马检测系统是千云旗下的数据安全实验室(www.sucop.com)出品的一款免费挂马检测软件.该软件是专为检查WEB Server被入侵种植脚本木马和网页被嵌入的恶意链接而设计的. 点击此处 ...

Windows Server 2012 R2中的VDI数据删除技术工作原理

重复数据删除技术如何帮助工作负载在虚拟桌面工作?VDI重复数据删除有什么局限性吗? 终端虚拟化使用的技术如虚拟桌面基础结构(VDI)近年来引起了人们的关注,因为组织希望对终端实现集中管理并实施安全 ...

PS和Indesign设计宣传画册

教程教三联的朋友们用PS和Indesign设计宣传画册,教程难度不大,设计出来的宣传画册挺漂亮的,这篇教程算是一个商业运用的实际例子吧,转发过来和三联的朋友们一起分享学习了,先来看看最终的效果图: 具 ...

wps文字如何隐藏文档内容？

1.如下图所示点击左上角我平时文字倒三角,选择工具,选项. 文档内容?-wps文档工具栏隐藏"> 2.在弹出的"选项"的对话框中选择左侧菜单中的"打印 ...

音悦台帐号怎样升级

1.登录音悦台:http://www.yinyuetai.com/,登录帐号. 2.每日登录打卡签到是必须的. 3.连续登录打卡签到分别有不同程度的奖励. 4.重点还是积极上传MV,上传有效MV加 ...

解决Mac App Store安装程序error 100问题

有用户反应在升级系统10.6.6后,打开Mac App Store,点击要安装的程序时会出现如下错误提示. OSX Daily 为此提供了简单的解决方法,步骤如下: 在Mac App Store里 ...

IdeaPad Y400 Y500预装Win8如何改装Win7

故障现象: 对于新的Win8系统使用不习惯,想安装Win7系统,但是在安装Win7过程中无法对系统进行分区. 提示"Windows无法安装到这个磁盘.选中的磁盘具有MBR分区表.在EFI ...

电脑语言设置在哪里？

一.首先从电脑桌面左下角的"开始"菜单中,找到"控制面板",并点击进入,如下图所示: 进入电脑控制面板二.进入控制面板之后,我们再点击进入"更改 ...

电脑重装声卡驱动后总是弹出插口已塞入或拔出该怎么办?

在更新驱动后,有的电脑总是弹出小窗口,影响上机体验,这里给大家提供一种解决办法. 1.打开右下角的音频管理器 2.点击管理器中的文件样式图标 3.在禁用前面板检测前打勾,并点击确定,这样小窗口提示 ...

Windows Server中的 WINS 服务器远程内存损坏漏洞分析

本文讲的是Windows Server中的 WINS 服务器远程内存损坏漏洞分析, 漏洞概要在2016年12月,FortiGuard Labs发现并报告了Microsoft Windows Serv ...

电脑开机后，就会自动运行chkdsk，我想取消chkdsk，怎么取消

每次开机都自动检查磁盘,检测通过后下次还是一样,NTFS/FAT32分区都有可能有这样的情况,即使重装系统,仍可能出现同样情况,但是硬盘可以通过Dell 随机带的检测程序解决方法:在命令行窗口中输 ...

在硅谷20年，她选择回“家”

1995年,王燕蓉大学毕业后不久就赴美留学,一待就是20年.在世界的创新中心硅谷有了幸福美满的家,有体面称心的工作.所以当她决定举家回国的时候,她周围的朋友和同事都很震惊.按照常人的逻辑,这有些不可思 ...

使用sonar进行java代码质量管理

前言应公司要求,这一次的开发需要进行sonar进行静态代码质量检测. 接到这个任务的时候,我还并不知道sonar是什么,但听到静态代码检测几个字的时候,我下意识的以为是类似checkstyle之类的 ...

ios-IOS怎么播放沙盒目录下得视频

问题描述 IOS怎么播放沙盒目录下得视频通过链接把视频下载后保存在沙盒目录下,在进行播放,地址没问题,可就是放出来 NSArray *documentspaths = NSSearchPathFor ...

余额宝隐藏的东西

支付宝个人账户信息的下方,突然出现了一个功能名叫"余额宝".这就是支付宝推出的余额增值的服务--客户将账户中的余额转入余额宝,然后这里面的资金会用在购买货币基金.余额宝唯一的货币基 ...

jQuery实现的表格展开伸缩效果实例_jquery

本文实例讲述了jQuery实现的表格展开伸缩效果.分享给大家供大家参考,具体如下: <html> <head> <meta http-equiv="Conten ...

个人站长最长久的模式还是电子商务

记得某位老大说过,个人站长最长久的模式还是电子商务,而且也越来越多的网站会像所谓的电子商务网站来靠拢,我们先不去论证这些观点是否科学和正确的,就从现在的电子商务模式上看,要么嫁接到别的电子商务平台,比 ...

Spring Aop实例之xml配置

上篇博文<3幅图让你了解Spring AOP>中介绍了aop通知类型,AOP的配置方式有2种方式:xml配置和AspectJ注解方式.今天我们就来实践一下xml配置方式. ...

读腾讯财报，聊聊腾讯的收入及盈利能力

2013年3月20日,腾讯发布第四季度及全年财报.腾讯2012年全年实现收入438.937亿人民币,比去年同期增长54%.期内盈利为人民币127.849亿元,比去年同期增长25.0%. 根据腾讯财报, ...

打造自己的 DockerImage

目标: 满足团队需求 Docker 镜像镜像需符合安全审计要求镜像要求最简化安装需要解决 glibc ( ghost ) 漏洞修改 ulimit 65535 限制添加用户 apps 修改 ...

游戏开发者分享如何营造恐怖游戏吓人感

在这个恐怖游戏项目的一开始,我仍然听到自己的内心大声地说着:"让我们创造一款史上最吓人的恐怖游戏."而现在,距离那时候已经过了一年半时间,我们也仍处于游戏的开发阶段,我想在此分享我 ...

asp中Response.End()用法_应用技巧

ASP开发中可能有时候会用大段的if... else 的判断,不过如果是动态Response.write的内容,你想更方便阅读代码,可以用Response.End()来终端ASP的执行,也就类似于Br ...

Bootstrap弹出框和提示框效果及源码

一.Bootstrap弹出框使用过JQuery UI的园友们应该知道,它里面有一个dialog的弹出框组件,功能也很丰富.与jQuery UI的dialog类似,Bootstrap里面也内置了弹出框 ...

Google：这里最适合职业生涯起步

<商业周刊>9月18日报道,日前,Google产品管理副总裁萨拉尔·卡曼加接受了<商业周刊>记者的采访.在采访中,这位Google最年轻的副总裁称,Google在具备 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.020 s.