hadoop的概念

hadoop的概念

网上会经常遇到各种hadoop的概念，Hive，HBase，Hdfs都各是什么呢？

首先从hdfs说起，hdfs是分布式文件系统，它把集群当作单机一样做文件操作，文件可能存在于多个机器上，具体的存储细节会对使用者隐藏。

map_reduce是一个计算框架，google提出的，用于大规模数据计算，它们的主要思想，是从函数式编程中借来的特性。

hdfs和map_reduce统称为我们常说的Hadoop架构，这个架构能存储PB级别的数据，也能进行成千上万的独立计算。

好，现在已经有了这个框架了，这个框架包含了底层的存储结构，但是却并不是那么好用，我们大家还是擅长于使用sql语句来进行数据精炼，查询和分析的。这个时候，就出现了Hive。Hive的功能是把sql语句解析成map_reduce的计算任务，当然这样的拆分会导致查询变慢，可能一个sql查询需要分钟甚至小时级别的，不像mysql那样秒级以内查询出结果。

基于Hadoop框架，Powerset公司提出了另外一种非关系行分布式数据库HBase。它是使用JAVA实现的，最大的特点是基于列存储的。列存储的好处是什么？列存储就是把不同行相同的数据存储在一起，这样比如有的行没有的属性，在行存储中还需要留空余空间，但是在列存储中就完全不需要。列存储也能把相同属性的字段存储在一起，这样对数据压缩也有好处。所以列存储很适合大数据领域。

我们经常看到文章比较HBase和Hive，一般都是比较他们的查询效率，其实他们并不是一个维度的东西。HBase的查询效率会优于Hive，而Hive一般用于做离线的数据分析。

时间： 2024-09-16 09:55:55

hadoop的概念的相关文章

Hadoop学习资源集合

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储.Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取.变形和加载(ETL)方面上的天然优势.Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储. 目录: Awesome Hadoop Hadoop YARN NoSQL Hadoop上的SQL 数据管理工作流.生命周期及管理数据提取与整合 DSL 库和工具实时

Hadoop之一：Hadoop的安装部署

说到Hadoop不得不说云计算了,我这里大概说说云计算的概念,其实百度百科里都有,我只是copy过来,好让我的这篇hadoop博客内容不显得那么单调.骨感.云计算最近今年炒的特别火,我也是个初学者,记下我自学hadoop的一些经历和过程. 云计算(cloud computing)是基于互联网的相关服务的增加.使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源.云是网络.互联网的一种比喻说法.过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象.因此,云计算

hadoop和OpenStack有什么区别，请帮我扫扫盲？

问题描述 hadoop和OpenStack有什么区别,请帮我扫扫盲? 解决方案解决方案二:OpenStack是云计算平台.说白了就是能够在上面创建虚拟机,管理虚拟机(美其名曰:计算资源虚拟化),管理存储资源(美其名曰:存储资源虚拟化).OpenStack的存储管理包括两个工具:一个是分布式文件系统,一个是为虚拟机创建磁盘的工具.OpenStack可以和hadoop比较的就是分布式文件系统.hadoop是为了实现大数据量存储.OpenStack的存储工具(名字叫swift)是对象存储.我知道的就

如何为Hadoop集群配置合适的硬件

Hadoop的概念随着大数据时代浪潮的到来,已经变得不那么陌生,在实际应用中,如何为Hadoop集群选择合适的硬件成为很多人开始使用Hadoop的一个关键问题. 在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载.然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求.即寻求一种新的方法来存储和处理复杂的数据,

数据库工程师快速上手MaxCompute进行ETL

案例说明本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析. 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础. 案例侧重数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别. 示例介绍房产网上经常会看到一些排行榜,如最近30日签约的楼盘排行.签约金额的楼盘排行等,本示例我们简单介绍通过对二手

《深入理解Hadoop（原书第2版）》——第2章 Hadoop中的概念 2.1 Hadoop简介

第2章 Hadoop中的概念价格实惠的普通计算机经常满足不了应用程序的计算资源需求,很多企业的业务应用程序已经不再适合在单台廉价的计算机上运行.这时,一个简单昂贵的解决方案就是购买一些具有多CPU的高端服务器,这通常需要巨额资金.只要能买到最高端的服务器,这个解决方案就能够达到理想的效果,但预算往往是个大问题.另一个替代方案,就是搭建一个高可用的集群,这个集群经过专业的安装和精心的管理服务,使用起来就像一台计算机一样.很多高可用的集群都是企业专有的而且价格也十分贵. 为了获取所需的计算资源,一

《Spark与Hadoop大数据分析》——3.2　学习Spark的核心概念

3.2 学习Spark的核心概念在本节,我们要了解 Spark 的核心概念.Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD).因此,我们要了解 RDD 是什么,以及提供内存级性能和容错的 RDD 中包含的运算.但是,首先我们要学习使用 Spark 的方法. 3.2.1 使用 Spark 的方法使用 Spark 有两种方法,即 Spark Shell 和 Spark 应用程序. 1. Spark Shell 这是可以利用 Sca

《R与Hadoop大数据分析实战》一2.1　MapReduce基础概念

2.1 MapReduce基础概念如果没有使用过集群或信息传递接口(Message Passing Interface,MPI),那么理解MapReduce基础概念将不会是一件容易的事.更多的实际应用是数据不存放在一个硬盘中而是存放于分布式文件系统中(Distributed File System,DFS),或存放于由Hadoop技术实现的分布式软件中.MapReduce同时也是一个编程模型,它以一种分布式方法进行工作.其中包括信息传递接口(MPI)和同步并行计算模型(Bulk Synchro

Hadoop概念

由Apache基金会开发的分布式基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System), 简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉(low-cost)的硬件上:而且他提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序.HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据.其框架最核心的设计:HDF

猜你喜欢

利用asp实现网站换肤功能

先制作2套CSS样式表文件 a.css和b.css 默认为a.css 然后程序代码如下: 以下是ASP源代码:Dim strStyle strStyle = Trim(Request.QueryStr ...

ZendFrame实现一个投票模块

思路分析:获取用户ip,判断该ip 是否被禁用,然后判断今天有没有投了再做出相应的操作... 主要步骤如下: 配置一下application.ini 让项目可以连接到指定的数据库 [my ...

获得汉字字符串的首个拼音字母的缩写

汉字|拼音|字符串标题可能不太清楚,实现的功能如下:我爱中国-WAZG 1.汉字字符与英文字母之间区别标准的asc表不包含汉字字符,因为一个asc字符只有1byte,就是8bit, ...

《C#入门与提高》(二)

第一章 C#的开发环境C#最简间编辑器可以用Notepad,但我并不建议用它编辑源码.原因是如果你与真正的编程语言打交道,使用Notepad编辑源码编译时可能产生大量的错误信息行,但你还不知是在哪呢. ...

如何巧用分类信息网做外链

现在在论坛上和博客上发高质量的外链不是很好做了,分类信息网站作为后起之秀越来越引起站长们的关注.分类信息网站的权重是高的,在上面发的贴子收录是很快的,效果很好.但是在这些网站上发贴子也不是随随便便的, ...

C#编写的生成缩略图程序

程序|缩略图 if(fileupload.PostedFile!=null) { //addto为要添加的属性,aboutfile为文件说明 string n ...

让您的主页支持各种浏览设备（ASP.NET篇)(上）

前面我们看到了对于移动控件的介绍,现在我们具体来看看他的用法. 使用移动控制使用移动控制就和使用其它ASP+控制一样简单.事实上他更加简单,因为他是产生整个页面,而不是部分页面.我们甚至不必去 ...

使用 Yocto Project 构建自定义嵌入式 Linux 发行版

概述 Yocto Project 是一个开源协作项目,它提供了一些模板.工具和方法来支持面向嵌入式产品的自定义 Linux 系统,不管硬件架构是什么.我想要告诉那些对 yocto 这个名称不甚理解的 ...

理解OLAP的多维数据结构

数据在多维空间中的分布总是稀疏的.不均匀的.在事件发生的位置,数据聚合在一起,其密度很大.因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题.事实上,有许多方法可以构造多维数据. ...

WINCE下小游戏习作(Q11战斗机)

首先感谢VCKBASE无偿提供的交流环境和众多XDJM们提供的无私的帮助,我在此收益颇丰.最近因为工作上一个PDA嵌入式的项目,恶补了一些这方面的知识,回头感觉走了不少弯路,所以写了这个小游戏,拿出来 ...

CORBA

在大型的分布式应用中,我们的某些要求并非前面讲述的方法能够满足的.举个例子来说,我们可能想同以前遗留下来的数据仓库打交道,或者需要从一个服务器对象里获取服务,无论它的物理位置在哪里.在这些情况下,都要 ...

可牛影像给图片增加艺术字特效

原始图片: 选中"T 文字"功能标签: 选择"添加静态文字": 你可以选择本地已经安装过的字体文件,或者选用可牛影像自带的华康.汉仪.方正等艺术字体.将文字 ...

如何在PowerPoint中设置半透明背景

1.单击"插入"-"插图"-"形状"按钮,在弹出的下拉框中选择图形"矩形". 2.绘制一个跟幻灯片一样大小的矩形.单 ...

pdf密码移除器怎么用？

pdf密码移除器怎么用: 很多PDF文件只能查看却不能被编辑和打印,因为它们已被保护.你并不知道被保护的PDF文档的密码却又急着向上司交差,怎么办?让pdf密码移除器来帮你轻松解决!你只要将PDF ...

Windows7系统启用或禁用来宾账户的方法

1,打开"开始菜单"选择"控制面板". 2,在"类别"视图下选择"添加或删除用户账户". 3,点击选择来宾账户Gue ...

微信公众平台一个身份证可绑五个号

微信官方宣布,为方便用户注册公众账号,今日开始启用全新的微信公众平台注册流程,简化操作.此外,一个身份证最多可以注册公众帐号的个数,由原来的2个增加到5个. 在新的注册流程中,公众账号主体类型分为 ...

centos 7 LAMP 服务配置

LAMP,顾名思义: L : Linux A : Apache M : Mariadb(原MySQL) P : PHP 建网站,首要问题就是安全,所以iptables一定要配置好,或者firewall ...

多页合一浏览(View All)的SEO方案

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅现在很多网站加上了"多合 ...

js验证整数加保留小数点的简单实例_javascript技巧

复制代码代码如下: function validateNum(obj) { //正整数(此处用了缓存) var number = obj.data(validate).number; ...

这是我整理的从文件夹中读取所有txt文件，并读取里面内容的java程序，问什么读出来的汉字是乱码？

问题描述这是我整理的从文件夹中读取所有txt文件,并读取里面内容的java程序,问什么读出来的汉字是乱码? import java.io.BufferedReader; import java.io ...

Wpf中MediaElement循环播放

原文:Wpf中MediaElement循环播放前一段时间做了一个项目,里面牵涉到媒体文件的循环播放问题,在网上看了好多例子,都是在xaml中添加为MediaElement添加一个Time ...

java jsp-为什么我提示我数据库操作失败！！哪里出现了问题。

问题描述为什么我提示我数据库操作失败!!哪里出现了问题. <%@ page language="java" contentType="text/html; cha ...

C#的文本文件读写器求指点，没有一点头绪

问题描述根本不知道从什么地方入手,百度得到的代码一塌糊涂,没什么实用性解决方案解决方案二:根本看不懂你想问什么,语言逻辑都一塌糊涂,没什么可读性解决方案三:你想做一个txt文本的读写程序吗??

Android SDK3.1.2,发送图片之后，在接收消息就会崩溃，

问题描述我用两台android设备聊天,在新建的群聊里面,设备A发送一张图片,设备B接收到了,然后设备B再发送一条消息,设备A就收不到了,有的设备会直接卡在那里不动了,代码中并不会报直接错误,在er ...

Asp.Net二级域名共享Forms身份验证、下载站/图片站的授权访问控制_实用技巧

一般大家对小文件的解决办法是直接在服务端读取文件,然后输出,这样就避免了文件地址的暴露,这是一种解决办法.而我现在想说的是使用 TransmitFile 方法直接输出文件,但是这个方法对大文件的支撑力 ...

已有打开的与此命令相关联的DataReader,必须首先将它关闭。对于此异常的理解_实用技巧

首先声明以下几点: 1.也许讲解有点初级,希望高手不要"喷"我,因为我知道并不是每一个人都是高手,我也怕高手们说我装13: 2.如有什么不对的地方,还希望大家指出,一定虚心学习: ...

使用log4net无法将日志记录插入mysql数据库解决办法

写在前面今天没事研究了下,将日志文件写入mysql数据库,因为新公司用的数据库也是mysql,项目中需要将日志信息写入数据库,没办法,就研究了下.在使用过程中遇到一个很蛋疼的问题.最后解决了,郁闷了 ...

&amp;lt;a&amp;gt;标签传值与服务器是否有关问题？急？急？急？急？急？急？急？急？

问题描述我遇到这样一个问题,在本地tomcat上运行java代码,<a>标签能把值传入servlert进行删除数据库里面的数据并不报错误,而在公司里面的服务器上运行,<a>标 ...

民营快递一年涨价三次部分企业坚持低价策略

圆通速递涨了.韵达快运涨了,德邦物流涨了.天地华宇也涨了.这已经是民营快递行业在一年多时间里的"第三次"涨价. <每日经济新闻>记者调查发现,这次由圆通领涨,韵达跟进的 ...

三大运营商入场北京地铁四号线

9月28日消息北京地铁4号线今日开通试运营,对此,京港地铁公司人士表示,中国移动.中国联通与中国电信三大运营商的手机信号均会覆盖4号线. 和去年开通的十号线遭遇"信号门"尴尬不同 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.