hive (基于hadoop的数据仓库)

1.简介

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。

与传统关系数据库相比的优势是：能够处理海量数据。

劣势是：它只提供查询功能，不能增、删、改。涉及到分布式计算的任务分发，查询时间在分钟级，不能当实时工具用。

运行机理：将sql语句转换为MapReduce任务，让Hadoop处理。

2.查询语句

hive //此命令打开hive的CLI（Command Line Interface）。
show databases;//查询所有的数据库名称。
use db_name;//进入hive后是默认的DB，此命令切换到指定的DB。
show tables;//查询当前db下的所有表的名称。
show tables  'ad*';//查询以'ad'开头的表名。
describe table_name;//查看指定表的结构。
select * from table limit 50;//限制返回结果数，与mysql不同，不能使用 limit from,end 这种形式。

3.执行过程

查询开始后控制台会输出一个URL，用于web监控。页面一般长这样，见图3-1.

图3-1

4.导出

查询结果落文件有两种方式：

/*查询结果输出到指定目录，文件名一般是0000_0，没有标题列。*/
/*数据量大时可能有若干个结果文件，处理不方便*/
INSERT OVERWRITE LOCAL DIRECTORY '/home/me/csvFileDir/'
row format delimited fields terminated by ','
select * from table_name limit 10;

/*查询数据并导出到单一文件，分隔符就是制表符，携带标题。*/
hive  -e "select * from db_name.table_name limit 10" >> /home/me/csvFileDir/hiveResult.txt

几百兆的大文件，只有UltraEdit能应对。还可以用navicate导入数据库用。

时间： 2024-09-08 19:10:01

hive (基于hadoop的数据仓库)的相关文章

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

基于Hadoop版本Tachyon：吞吐量要比HDFS高300多倍

Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon.AMPLab从底层重建了Hadoop平台,"没有最快,只有更快". AMPLab在大数据领域最知名的产品是Spark,它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍.又因为Spark是在内存运行,所以Shark可与Druid或者SAP's HANA系统一较高下.Spark也为ClearStor

使用Hive构建省钱的数据仓库

答案取决于具体企业.人们声称 Hive 是 Hadoop 的数据仓库.尽管从某个层面上讲这是真的,但这种说法也有几分虚假. 不过,有时您必须使用您可以使用的工具,就此而言,可以将 Hive 用作一个数据仓库. 有 3 个家伙来到了一家企业.第一个(数据仓库)身材魁梧:他带来了历史和经验,而且能言会道,所说的大部分话都是真的.但是,在许多方面,它有些自我膨胀,在另一些方面又有些铺张浪费,而且人们厌烦了各种结果的代价.Apache Hadoop 进入了同一栋建筑,声称要接管整个市场.他大肆鼓吹大数据

基于Hadoop数据仓库Hive1.2部署及使用

接下来安装Hadoop数据仓库Hive,上节了解HBase简单使用,听起来HBase与Hive有些类似,概念也有点模糊,那我们先了解下他们之间有什么区别: HBase是一种分布式.面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行和列组成,列划分到列族中.HBase不提供类SQL查询语言,要想像SQL这样查询数据,可以使用Phonix,让SQL查询转换成hbase的扫描和对应的操作,也可以使用现在说讲Hive仓库工具,让HBase作为Hive存储. Hive是运行在H

基于Hive的水利普查数据仓库

基于Hive的水利普查数据仓库陈龙万定生顾昕辰针对水利普查数据海量.多维的特点,研究近年来在"大数据"概念下发展迅速的Hadoop与Hive,结合传统数据仓库在多维数据分析方面的成熟技术,提出基于Hive的水利普查数据仓库的构建方法,描述数据仓库系统的架构,并根据Hive的设计特点,通过分桶.消减维度表和冗余事实表的方法来改进传统的多维分析模型,最后搭建集群系统对水利普查数据集进行查询与分析测试.测试结果表明该数据仓库可以满足海量多维水利普查数据的存储与查询要求. 基于Hive

基于Hadoop/hive架构的网络身份识别系统的设计与实现

基于Hadoop/hive架构的网络身份识别系统的设计与实现南京邮电大学付倩文本文在实际系统开发的基础上,综述了一种基于Hadoop/hive架构的网络身份识别系统设计与实现的开发方案.将各个数据源的原始数据利用MapReduce进行层层清洗后,装载入一个新建的基于事件的数据仓库.随后,利用HiveQL语言,在专业工作流控制工具的控制下,根据用户要求完成数据的分析处理工作.最后,将数据分析结果展示给用户.该系统的功能已经部分投入使用,经过实际验证,其各项性能指标均达到用户要求,有很高的实

[文档]基于Hadoop／Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计刘永增,张晓景,李先毅利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

基于Hadoop集群的Hive安装

hadoop 版本号:hadoop-0.23.5 hive版本号:hive-0.8.1 derby版本号:db-derby-10.9.1.0 mysql版本号:mysql-5.1.47(linux redhat 安装时已经安装) 首先是hive的嵌入式模式的安装, 在hive嵌入式安装时默认的数据库是derby, 嵌入式模式的安装无法用于实际的工作, 即这种模式的运行环境无法支持双向同步或是集群工作. 但是可以用来对hive安装是否正确起到测试和调配作用, 待到嵌入模式下hive正确运行后, 可

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. 目前主流的三大分布式计算系统分别为:Hadoop.Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统.可以轻松地集成结构化.半结构化甚至非结