分布式计算开源框架Hadoop入门实践

　　在SIP项目设计的过程中，对于它庞大的日志在早先就考虑使用任务分解的多线程处理模式来分析统计，在前面有一篇Blog中提到了那部分的设计，但是由于统计的内容暂时还是十分简单，所以就采用Memcache作为计数器结合Mysql完成了">访问控制以及统计的工作。但未来，对于海量日志分析的工作，还是需要有所准备。现在最火的技术词汇莫过于“云计算”，在Open API日益盛行的今天，互联网应用的数据将会越来越有价值，如何去分析这些数据，挖掘其内在价值，就需要分布式计算来支撑起海量数据的分析工作。

　　回过头来看，早先那种多线程，多任务分解的日志分析设计，其实是分布式计算的一个单机版缩略，如何将这种单机的工作分拆，变成集群工作协同，其实就是分布式计算框架设计所涉及的。在去年参加 BEA的大会时候，BEA和VMWare合作采用虚拟机来构建集群，无非就是希望使得计算机硬件能够类似于应用程序中的资源池中的资源，使用者无需关心资源的分配情况，最大化了硬件资源的使用价值。分布式计算也是如此，具体的计算任务交由哪一台机器执行，执行后由谁来汇总，这都由分布式框架的Master 来抉择，而使用者只需简单的将待分析内容的提供给分布式计算系统作为输入，就可以得到分布式计算后的结果。 Hadoop是Apache开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了应用，亚马逊，Facebook,Yahoo等等。对于我来说，最近的一个使用点就是服务集成平台的日志分析，服务集成平台的日志量将会很大，这也正好符合了分布式计算的适用场景(日志分析，索引建立就是两大应用场景)。

　　当前没有正式确定使用，所以也是自己业余摸索，后续所写的相关内容，都是一个新手的学习过程，难免会有一些错误，只是希望记录下来可以分享给更多志同道合的朋友。

　　What is Hadoop

　　搞什么东西之前，第一步是要知道What，然后是Why,最后才是How，但很多开发的朋友在做了多年项目以后，都习惯是先How，然后What，最后才是Why，这样只会变得浮躁，同时往往会将技术误用不适合的场景。

　　Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是任务的分解与结果的汇总。HDFS是Hadoop分布式文件系统的缩写，为分布式计算存储提供了底层支持。

　　MapReduce从它名字上来看就大致可以看出个缘由，两个动词Map,Reduce，Map(展开)就是将一个任务分解成为多个任务，Reduce就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思想，其实在前面提到了多线程，多任务的设计就可以找到这种思想的影子。不论是现实社会，还是在程序设计中，一项工作往往可以被拆分成为多个任务，任务之间的关系可以分为两种：一种是不相关的任务，可以并行执行;另一种是任务之间有相互的依赖，先后顺序不能够颠倒，这类任务是无法并行处理的。回到过去，大学老师上课时让大家去分析关键路径，无非就是找最省时的任务分解执行方式。在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分交由每一个空闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。(其实我一直认为Hadoop的卡通图标不应该是一个小象，应该是蚂蚁，分布式计算就好比蚂蚁吃大象，廉价的机器群可以匹敌任何高性能的计算机，纵向扩展的曲线始终敌不过横向扩展的斜线)。任务分解处理以后，那就需要将处理以后的结果在汇总起来，这就是Reduce要做的工作。

　　图 1 MapReduce

　　上图就是MapReduce大致的结构图，在Map前还可能会对输入的数据有split的过程，保证任务并行效率，在Map之后还会有shuffle的过程，对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。后面会具体提及这些部分的细节。

　　HDFS是分布式计算的存储基石，Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。

12下一页

时间： 2025-01-21 02:56:52

分布式计算开源框架Hadoop入门实践的相关文章

分布式计算开源框架Hadoop入门实践（三）

Hadoop基本流程计算开源框架Hadoop入门实践(三)-hadoop分布式计算框架"> 一个图片太大了,只好分割成为两部分.根据流程图来说一下具体一个任务执行的情况. 在分布式环境中客户端创建任务并提交. InputFormat做Map前的预处理,主要负责以下工作: 验证输入的格式是否符合JobConfig的输入定义,这个在实现Map和构建Conf的时候就会知道,不定义可以是Writable的任意子类. 将input的文件切分为逻辑上的输入InputSplit,其实这就是在上面提到的

分布式计算开源框架Hadoop入门实践（一）

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章<Tiger Concurrent Practice --日志分析并行分解设计与实现>中有所提到.但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作.然而未来,对于海量日志分析的工作,还是需要有所准备.现在最火的技术词汇莫过于"云计算",在Open API日益盛行的今天,互联网应用的数据将会越来越

分布式计算开源框架Hadoop入门实践（二）

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天.Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可.这里主要重点说一下集群配置运行的过程. 环境 7台普通的机器,操作系统都是Linux.内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精.JDK必须是1.5以上的,这个切记.7台机器的机器名务必不同,后续会谈

实践操作：六步教你如何用开源框架Tensorflow对象检测API构建一个玩具检测器

TensorFlow对象检测API是一个建立在TensorFlow之上的开源框架,可以轻松构建,训练和部署对象检测模型. 到目前为止,API的性能给我留下了深刻的印象.在这篇文章中,我将API的对象设定为一个可以运动的玩具.本文将用六个步骤突出API的性能并教你如何构建一个玩具探测器,你也可以根据这六个步骤扩展与实践你想要构建的任何单个或多个对象检测器. 玩具检测器代码在我的GitHub repo上. 地址:https://github.com/priya-dwivedi/Deep-Learn

深度学习入门者选择开源框架丨硬创公开课群友问答

在上周公开课<AI 从业者该如何选择深度学习开源框架丨硬创公开课>中,微软机器学习科学家彭河森博士详细讲述了各大开源框架适用的场景,课程结束后,我们特地整理了深度学习入门者较为关注的几个问答: 想学习深度学习开源框架,比如TensorFlow,Caffe,需要掌握哪些 Linux 知识? Linux 方面的知识我认为主要在系统配置方面,这里推荐一下 Docker,Docker 是一个容器虚拟机,可以让虚拟机中的程序和硬件更紧密的结合在一起,同时省去了配置 CUDA,BLAS/LAPACK 等环

Deep learning深度学习的十大开源框架

Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具. 对于希望在应用中整合深度学习功能的开发者来说,GitHub上其实还有很多不错的开源项目值得关注,首先我们推荐目前规模人气最高的TOP3: 一.Caffe.源自加州伯克利分校的Caffe被广泛应用,包括Pinterest这样的web大户.与TensorFlow一样,Caffe

AI 从业者该如何选择深度学习开源框架丨硬创公开课

编者按:本文内容来自微软美国总部机器学习科学家彭河森博士在雷锋网(公众号:雷锋网)硬创公开课的分享,并由彭河森博士亲自整理成文. 正如程序语言一样,深度学习开源框架同样各有优劣和适用的场景,那么 AI 从业者该如何有针对性地选择这些平台来玩转深度学习? 本期公开课特邀了先后在谷歌.亚马逊.微软供职的机器学习科学家彭河森博士为大家讲述<MXNet火了,AI从业者该如何选择深度学习开源框架>.彭河森博士亲眼见证并深入参与了这三家巨头布局深度学习的过程. 嘉宾介绍彭河森,埃默里大学统计学博士.现担

15个最受欢迎的Python开源框架

我们从GitHub中整理出了15个最受欢迎的Python开源框架,这些框架包括事件I/O.OLAP.Web开发.高性能网络通信.测试.爬虫等. 1. Django: Python Web应用开发框架 Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响.Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单的对象定义,它就能自动生成数据库结构.以及全功能的管理后台. 2. Diesel:基于Greenlet的事件I/O框架 Di

简单了解开源框架的基础与优势

在IT咨询公司OpenCredo计划要在七个月的时间里给一家主要保险商提供三个新应用程序的时候,它给自己制定了三个目标:缩短开发时间,允许客户频繁变动,和架构一个可以处理不可预知流量高峰的系统. 首席执行官Russel Miles认为,借助于使用Cloud Foundry开源框架和其他的一些开源软件,OpenCredo已经完成了"一些繁重的工作",比如配置虚拟机以及调整存储卷的大小.这个开源框架能够让开发人员在本地进行代码的编写,和客户共享,以及自动化集成.测试和应用程序组件的部署等操

猜你喜欢

关于cobol问题-关于COBOL的一些操作问题请赐教

问题描述关于COBOL的一些操作问题请赐教本人是初学者,对COBOL的一些操作和命令还不熟,不知道该怎么做,请问谁有没有COBOL的例子及其操作步骤的,感激! 解决方案 http://wenku. ...

高校WEB2.0社区发展奇迹

在IT界的精英中不少都是刚毕业的大学生,很多是在大学里就打好了基础,甚至,大学生站长也不少但是,很少有人真正关注高校社区的发展,一群毛孩子,没资金技术不硬没精力,能搞出什么来呢? 我是世纪民大 ...

设计理论:论方案与资源、沟通的问题

这个问题在很多的小公司都不存在.小公司养着.催着设计师,设计师不用去考虑能不能拿到结果,因为你不干,大家都等着你,因为身后自然有一群人在push:老板,工程师,同事.这个结果是大家一起push的结果. ...

如何用java程序把本地文件拷贝到hdfs上并显示进度

把程序打成jar包放到Linux上转到目录下执行命令 hadoop jar mapreducer.jar /home/clq/export/java/count.jar hdfs://ubuntu ...

详解工业产品表面丝印CAD制作全过程

一个软件操作再熟练,但没有实际应用经验,不能在工作过程中充分发挥各软件的长处,是没有用的.只有学以致用,才能够提高我们的技能水平,提高我们的工作效率.下面我们以一个多媒体音箱产品的丝印制作过程为例,讲 ...

poj 1733 Parity game：带权并查集

链接: http://poj.org/problem?id=1733 题目: Description Now and then you play the following game with you ...

聚集索引和非聚集索引

聚集索引一种索引,该索引中键值的逻辑顺序决定了表中相应行的物理顺序. 聚集索引确定表中数据的物理顺序.聚集索引类似于电话簿,后者按姓氏排列数据.由于聚集索引规定数据在表中的物理存储顺序,因此一个 ...

PhotoShop为帅哥照片调出非主流色调

原图效果详细教程 1.添加曲线调整层,设置如果所示 2.添加色相饱和度调整层,把饱和度 + 16 分类: PS调色教程 ps非主流教程

Photoshop制作环形发光字

主要方法是把圆形的路径文字格式化后用动感模糊来制作光束,效果非常眩. 1.Photoshop中做一个路径文字,就是画个圆,然后在上面写字. 2.栅格化文字,复制图层,然后动感模糊(我模糊了两次,不 ...

期末考试来临 WPS模板助你临阵磨枪

年关将至,虽然传说中的世界末日并没有到来,但期末考试却如期而至,对于学生们来讲这绝对是无法逃过的一关.为了考试能过,大家可谓绞尽脑汁,有人把希望都寄托于最后一课的"考试范围",有人 ...

千牛子账号怎么授权

系统提示如下: 千牛子账号权限设置教程基于最新版本,所以请大家先下载官方最新版千牛PC版子账号权限设置教程千牛工作台模式: 必须是主账号登录千牛,右侧工具栏下拉,找到"子账号权限&q ...

JavaScript实现横线提示输入验证码随输入验证码输入消失的方法_javascript技巧

最近做微信端的页面遇到了一个之前没有遇到过的一个页面,刚开始放在那没有去写,可是等其他页面都写好的时候,还是得回过头来研究这个页面问题,刚开始我请教了公司的移动研发,从他那里得到启发,最终实现了这个效 ...

PowerDesigner16工具学习笔记-建立CDM

原文:PowerDesigner16工具学习笔记-建立CDM 1.基本术语 1.1.实体和属性实体(entity):指现实世界中客观存在,并可相互区别的事物或者事件. 属性 ...

c++小程序，乱码问题，大家来看看啊

问题描述 c++小程序,乱码问题,大家来看看啊 #include //#include class Container { public: int x; int y; int z; Container ...

嵌入式产品开发设计需要考虑的问题总结

嵌入式开发项目中,首先需要做需求分析,然后根据需求分析进行综合考虑,朗锐智科(www.lrist.com)这里给出几个特别要注意的问题. 1.MCU的选择选择 MCU 时要考虑 MCU 所能够完成的 ...

单纯用cordova实现app更新可以么？

问题描述单纯用cordova实现app更新可以么? 用cordova做的APP 想做一个自动更新有什么方法可行么解决方案 android实现app增量更新解决方案二: http://www.c ...

玩转地球: 如何利用SAS绘制现代化地图（附代码）

移动互联网应用和大规模社交网络催生了海量的数据分析需求,时空数据作为记录用户和设备在现实世界分布和活跃程度的基础数据,一直为各大互联网电子商务平台和商家所关注.地理空间数据结合其他业务数据如何被分析利 ...

诚心请教，关于培训的问题。很迷茫，希望有前辈能指点一下。

问题描述我是09年毕业的本科生,学校一般.很难找工作.现在很多培训都说可以推荐工作的,是不是真的哦? 有人了解中软和神州数码北京的培训吗?质量,诚信怎么样? 是不是真能推荐好工作? 本人现在很迷茫, ...

Go 开发的 IM 和推送服务 goim

goim 详细介绍 goim 是一个支持集群的im及实时推送服务(支持websocket,http和tcp协议) 特性: 轻量级高性能纯Golang实现支持单个.多个以及广播消息推送支持单个K ...

优化OEA中的聚合SQL

本文中的内容与前面几篇的内容.与OEA框架中的内容相关性比较大,有兴趣的朋友可以关注CodePlex中的项目:<OpenExpressApp> 结果对比优化前的代码,在 ...

java中如何后台执行excel的保存功能？

问题描述 java项目中,我通过jxl的方式实现了excel的生成操作.但发现生成的xls格式的文件,并非是真正的MicrosoftOfficeExcel工作簿(.xls),其文件格式貌似是西欧编码的 ...

spring mvc-springmvc spring hibernate 怎么配置连接两个数据库

问题描述 springmvc spring hibernate 怎么配置连接两个数据库 persistent.xml配置 <?xml version="1.0" encodi ...

asp.net最常用的三十三种编程代码

asp.net最常用的三十三种编程代码 1. 打开新的窗口并传送参数: 传送参数: response.write("<script>window.o ...

三星在美三大报投整版道歉信中美待遇为何迥然不同

为了挽回自己的形象,以一种诚恳的态度面对消费者(确权的说应该是美国消费者),日前,三星在美国三大主流报纸<纽约时报>.<华尔街日报>和<华盛顿邮报>投放整版的道歉信 ...

[cocos2dx]COCOS2D-X 关于 fatal error C1083: 无法打开包括文件:“CCStdC.h” 的问题

在新建COCOS2D-X项目时关于 fatal error C1083: 无法打开包括文件:"CCStdC.h" 的问题 fatal error C1083: 无法打开包括文件: ...

诡异的情况，WIN10下无法保存cookie~~

问题描述诡异的情况,WIN10下无法保存cookie~~ 系统:WIN10 开发工具:MyEclipse 2014 服务器:Tomcat 6 - Tomcat 8 浏览器:IE11,Chrome 现 ...

.NET C/S结构客户端通过Socket去服务端拿数据库的数据

问题描述 C端不直接访问数据库,C端通过Socket向S端发送指令,获取数据库的数据.如何实现一个函数stringSendCommand(stringCommand)即发送个获取个人信息的指令则返回个 ...

智驿信息携“电视之王”高调亮相——上海国际智慧酒店展

智驿信息携乐视120寸超级电视高调亮相上海国际智慧酒店展中国上海,2016年11月10日-为期三天的第八届中国(上海)国际酒店设备及用品采购交易会在国家会展中心(上海)拉开帷幕,智驿信息作为酒店视讯 ...

Mysql中分页查询的两个解决方法比较_php实例

mysql中分页查询有两种方式, 一种是使用COUNT(*)的方式,具体代码如下复制代码代码如下: SELECT COUNT(*) FROM foo WHERE b = 1; SELECT a F ...

输入值/表单提交参数过滤有效防止sql注入的方法_php技巧

输入值/表单提交参数过滤,防止sql注入或非法攻击的方法: 复制代码代码如下: /** * 过滤sql与php文件操作的关键字 * @param string $string * @return s ...

热搜