请问hadoop如何获得map任务的执行时间

问题描述

请问hadoop如何获得map任务的执行时间
请问hadoop中有哪个方法可以获得map任务的执行时间~~~!!!

解决方案

这个还是可以计算的一个作业对应一个JobInProgress一个Job对应多个TaskInProgress,TaskInProgress有相应的属性,其中有TaskInprogress
创建时间,第一个TaskAttempt开始运行时间,最后一个成功运行的TaskAttemp完成时间,你分别获取每个TaskInprogress的创建时间,和最后一个成功运行的TaskAttemp完成时间,用最晚的TaskAttemp完成时间减去最早的TaskInprogress的创建时间就可以得到整个map任务的执行时间了。

解决方案二:
http://my.oschina.net/leejun2005/blog/83058

解决方案三:
http://IP地址:50030可以在web界面查看hadoop运行情况,里边可以实时反映运行进展的,时间也有吧

时间: 2024-10-30 22:59:43

请问hadoop如何获得map任务的执行时间的相关文章

hadoop一个mapreduce的JOB最短执行时间

问题描述 hadoop一个mapreduce的JOB最短执行时间 如题,我想用hadoop来进行文本检索,想法是一个查询对应一个JOB,检索的话肯定时间要快. 但是我在eclipse中跑一个JOB时,即使是什么都不做,也需要7秒,用hadoop jar命令更久. 请问这个时间可以优化吗,还是Mapreduce初始JOB就需要这么久.还有一个奇怪的现象: JOB如果遍历文本集合来进行检索,竟然只需要6秒多,比什么都不干还快. 解决方案 看起来不会有人回答了,个人感觉mapreduce就是慢,不是说

一台物理机开三台虚拟机做hadoop的小项目,请问hadoop要选什么模式的?

问题描述 一台物理机开三台虚拟机做hadoop的小项目,请问hadoop要选什么模式的? 最近刚刚着手,准备在电脑上用VM装三台虚拟机网上看到hadoop的运行模式有独立.伪分布.全分布模式请问我初期学习的时候要用什么模式的?项目开发后期需不需要再修改成其他模式? 解决方案 1)独立模式:在本机模式下测试和调试,适宜用在开发阶段.2)伪分布模式:hadoop守护进程运行在本机上,模拟一个小规模的集群.3)全分布模式:守护进程运行在一个集群上,生产模式 解决方案二: 有三台虚拟机,当然就是全分布模

深度分析如何在Hadoop中控制Map的数量

很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定.在默认情况下,最终input占据了多少block,就应该启动多少个Mapper.如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导致崩溃.这些逻辑确实是正确的,但都是在默认情况下的逻辑.其实如果进行一些客户化的设置,就可以控制了.

hadoop教程(八) map/reduce的读取和写入

write/read 参考<hadoop权威指南>书的63和66页 读取流程 写入流程 查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/webkf/tools/

基于Hadoop的Map reduce编程(一)

翻译的一篇国外的关于hadoop mapreduce的文章,文章比较长,先翻译第一部分吧 翻译者:pconlin900 博客:http://pconline900.javaeye.com Hadoop是apache的一个开源的map-reduce框架,MapReduce是一个并行计算模型,用来处理海量数据.模型思想来源于google的Jeffrey Dean 和 Sanjay Ghemawat,包括map() reduce()两个主要的功能. 这是一个很简单的类似于Hadoop的MapReduc

请问如何在Android Google Map中实现LongClick事件

问题描述 有点搞不明白了,在MapActivity中实现onlongClick地图没反应.Overlay里面又没有onLongTap这种事件.请问在Android Google Map中如何实现LongClick事件呢? 解决方案 有个老外写过一个 不知道合你胃口不http://stackoverflow.com/questions/1678493/android-maps-how-to-long-click-a-map

Hadoop Map-Reduce的压缩最终输出文件

Hadoop 可以在作业的Configuration对象中通过设定一系列参数来改变作业的行为,比如,我们需要进行一个map-reduce作业,并且吧最终作业reduce过程的结果输出为压缩的格式,我们可以在一般的map-reduce上进行一些定制. 实现 还是以以前做的删选最高气温的例子为参照: 以前的例子可以见这个博文:http://supercharles888.blog.51cto.com/609344/878422 我们现在要求让结果输出为压缩格式,所以保持Map类(MaxTempera

hadoop配置、运行错误总结

新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助. 一.hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下 (问题非常明显,基本无疑义) Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespaceID=... 错误,原因是格式化namenode后会重新创建一个新的name

远程调试Hadoop各组件

远程调试对应用程序开发十分有用.例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序.其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等. 为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本. JPDA 简介 Sun Microsystem 的 Java Platform Debugger Archite