[Hadoop大数据]——Hive初识

Hive出现的背景

Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想。但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的hadoop api。如果不是开发者想要使用mapreduce就会很困难....

另一方面,大部分的开发者都有使用SQL的经验。SQL成为开发者必备的技能...

那么可以不可以使用SQL来完成MapReduce的过程呢?—— 答案就是,Hive

Hive能够解决的问题

Hive可以帮助开发者从现有的数据基础架构转移到Hadoop上,而这个基础架构是基于传统关系型数据库和SQL的。Hive提供了Hive查询语言,即HQL,它可以使用SQL方言查询存储在hadoop中的数据。

执行原理

Hive本身不会生成java的mapreduce程序,而是通过XML文件 驱动执行内置的、原生的Mapper和Reducer。

Hive的缺点

  • 1 不支持记录级别的更新、插入或者删除
  • 2 查询延迟比较严重
  • 3 不支持事务

如果想要基于SQL还想具有上面的特性,可以直接使用hadoop提供的nosql数据库——HBase

适合的场景

Hive适合做 数据仓库 应用程序,可以维护海量数据,对数据进行挖掘,形成意见和报表。

其他

同类型的工具就是Pig

暂时的疑问!!

1 HQL是如何变成MapReduce算法的?

2 平时HQL都是怎么使用的?——最佳实践

Hive中的数据类型与文件格式

本文转自博客园xingoo的博客,原文链接:[Hadoop大数据]——Hive初识,如需转载请自行联系原博主。

时间: 2024-09-20 00:19:42

[Hadoop大数据]——Hive初识的相关文章

[Hadoop大数据]——Hive部署入门教程

Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客: Linux下安装jdkLinux下安装hadoop伪分布式 在安装之前,先了解下Hive都有哪些东西. 下载并解压缩 去主页选择镜像地址: http://www.apache.org/dyn/cl

[Hadoop大数据]——Hive数据的导入导出

Hive作为大数据环境下的数据仓库工具,支持基于hadoop以sql的方式执行mapreduce的任务,非常适合对大量的数据进行全量的查询分析. 本文主要讲述下hive载cli中如何导入导出数据: 导入数据 第一种方式,直接从本地文件系统导入数据 我的本机有一个test1.txt文件,这个文件中有三列数据,并且每列都是以'\t'为分隔 [root@localhost conf]# cat /usr/tmp/test1.txt 1 a1 b1 2 a2 b2 3 a3 b3 4 a4 b 创建数据

[Hadoop大数据]——Hive连接JOIN用例详解

SQL里面通常都会用Join来连接两个表,做复杂的关联查询.比如用户表和订单表,能通过join得到某个用户购买的产品:或者某个产品被购买的人群.... Hive也支持这样的操作,而且由于Hive底层运行在hadoop上,因此有很多地方可以进行优化.比如小表到大表的连接操作.小表进行缓存.大表进行避免缓存等等... 下面就来看看hive里面的连接操作吧!其实跟SQL还是差不多的... 数据准备:创建数据-->创建表-->导入数据 首先创建两个原始数据的文件,这两个文件分别有三列,第一列是id.第

Microsoft发布基于Azure之上Hadoop大数据服务第二预览版

Microsoft在最新发布的SQL Server 2012中,更新了基于Microsoft Azure之上的Hadoop.在上周Microsoft发布最新版本SQL Server的同时,Microsoft同时宣布其基于Windows Azure之上的Hadoop大数据服务第二个预览版.Micrsoft在SQL Server 2012中的许多新功能和新服务都是基于Microsoft客户的,这些客户专注于混合的IT环境,并将传统数据中心部署在私有云和公共云的环境之中. Microsoft的Hado

除Hadoop大数据技术外,还需了解的九大技术

除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow 6.Apache NiFi 7.Druid 8.LinkedIn WhereHows 9.Microsoft Cognitive Services Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了

HADOOP,大数据,c++开发环境搭建问题

问题描述 HADOOP,大数据,c++开发环境搭建问题 各位大侠....我现在用c++来开发hadoop,现在服务环境已经搭建好了,我想再搭建一个用c++开发.编译hadoop的环境 c++的开发工具有eclipse和vs2010,请问各位大侠,我该怎么下手,怎么搭建 解决方案 http://blog.csdn.net/jin123wang/article/details/39012255http://blog.csdn.net/zwx19921215/article/details/19896

八大行业Hadoop大数据应用回顾和展望

任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程.大数据技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用.但从媒体和公众视野中,大数据技术总是带有神秘的色彩,似乎有着挖掘财富和预测未来的神奇力量.广泛流传的大数据应用案例包括Target超市根据女孩的购物历史判断是否怀孕,信用卡公司根据用户在不同时空的购物行为预测客户的下一个购买行为,等等.大数据技术也为我们描绘了一个个如"智慧城市","智慧交通"和"智慧医疗&qu

打破TPCx-BB测试记录又怎样,会玩Hadoop大数据应用吗?

随着移动互联网的快速发展,数据量急剧膨胀,新经济模式下,如何从积累的海量数据中挖掘出新的价值,支撑企业及社会发展,是当前大数据大热的内在驱动力.大数据应用所需要的IT设施的计算资源.存储资源越来越大,但目前很多处于探索期的大数据应用能否最终挖掘出价值也需持续的投入与不断尝试,如何以更快.更省的方式捕捉到大数据的业务商机,是大数据应用企业不得不考虑的现实问题. 大数据应用一般采用Hadoop数据库,主要得益于其在数据提取.转换和加载(ETL)方面上的天然优势.Hadoop的分布式架构,将大数据处理

2014年值得关注的十个Hadoop大数据创业公司

开源大数据框架Apache Hadoop已经成了大数据处理的事实标准,同时也几乎成了大数据的代名词,虽然这多少有些以偏概全. 根据Gartner的估计,目前的Hadoop生态系统市场规模在7700万美元左右,2016年,该市场规模将快速增长至8.13亿美元. 但是在Hadoop这个快速扩增的蓝海中游泳并非易事,不仅开发大数据基础设施技术产品这件事很难,销售起来也很难,具体到大数据基础设施工具如 Hadoop.NoSQL数据库和流处理系统则更是难上加难.客户需要大量培训和教育,付费用户需要大量支持