Hadoop集群上检查磁盘使用量和清理相关日志文件脚本

#####----检查Hadoop集群上的磁盘使用量----#####

#!/bin/sh
#检查Hadoop集群上的磁盘使用量

function diskState(){
	COUNT=1
	while [ ${COUNT} -le ${NUM}  ]
	do
		echo "********检查Hadoop${COUNT}上的磁盘使用量**********"
		#获取远程机器上的磁盘状态
		ssh -t -p 22 hadoop${COUNT} "df -h"
		COUNT=$((${COUNT}+1))
	done
}

NUM=$1 #hadoop 集群的数量
echo "Hadoop集群数量${NUM}"
if [ "${NUM}" -le "0" ] ;then
	echo "警告:$0 num "
else
	diskState
	echo "********======磁盘检查结束======***********"
fi

#########——删除Hadoop集群的日志文件和/tmp下的文件——#########

#!/bin/sh
#删除文件的方法
function deleteFile(){
	COUNT=1
	while [ ${COUNT} -le ${NUM}  ]
	do
		echo "********删除Hadoop${COUNT}上的临时文件和日志记录**********"
		#获取远程机器上的磁盘状态
		ssh -t -p 22 hadoop${COUNT} "rm -rf /usr/local/hadoop/tmp/*;rm -rf /tmp/*"
		#ssh -t -p 22 hadoop${COUNT} "rm -rf /tmp/*"
		COUNT=$((${COUNT}+1))
	done

}
DEL=$1
NUM=3
if [ "${DEL}" -gt "0" ] ;then

	deleteFile
	echo "********======删除临时文件结束======***********"
elif test !${DEL};then
	echo "警告:$0 num 1  #删除临时文件\n"
fi
时间: 2024-11-10 13:29:44

Hadoop集群上检查磁盘使用量和清理相关日志文件脚本的相关文章

grep-用shell脚本读取Hadoop集群上的文件

问题描述 用shell脚本读取Hadoop集群上的文件 我想用grep -Ff 命令提取hadoop上两个文件中相同的内容, 例如hadoop上的文件位置为/hadoop/file1和/hadoop/file2, 我想在本地用shell脚本编写比较hadoop上这两个文件内容的代码,求指点 解决方案 需要脚步跑到Hadoop.本地没法获取

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

基于Hadoop集群的大规模分布式深度学习

前言 在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上.正如在2015 Hadoop 峰会上介绍的,我们在自己的服务器上开发了可扩展的机器学习算法,用于分类.排序和计算词向量.目前,Hadoop集群已成为Yahoo大规模机器学习的首选平台. 深度学习(Deep Learning, DL)是雅虎很多产品的核心技术需求.在2015 RE.WORK深度学习峰会上,Yahoo Flickr团队(Simon O

《Hadoop实战第2版》——1.7节Hadoop集群安全策略

1.7 Hadoop集群安全策略众所周知,Hadoop的优势在于其能够将廉价的普通PC组织成能够高效稳定处理事务的大型集群,企业正是利用这一特点来构架Hadoop集群.获取海量数据的高效处理能力的.但是,Hadoop集群搭建起来后如何保证它安全稳定地运行呢?旧版本的Hadoop中没有完善的安全策略,导致Hadoop集群面临很多风险,例如,用户可以以任何身份访问HDFS或MapReduce集群,可以在Hadoop集群上运行自己的代码来冒充Hadoop集群的服务,任何未被授权的用户都可以访问Data

Hadoop集群datanode磁盘不均衡的解决方案

一.引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等.当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等. 二.问题: 因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的hadoop集群,而且datanode节点不能全部上线,其中还可能会出现节点上线或下线的情况,这个时候就很

Hadoop 集群管理上的新“绝招”

Hadoop在一些企业部署时,往往会遇到多个用户各自创建的数据处理工作的情况.这些工作都运行在同一个Hadoop系统上时,他们之间可能会彼此冲突,争夺可用的处理器资源. David Clubb,在移动游戏平台和市场公司Chartboost的高级数据工程师,试图优化大数据技术,提升产品体验时,也遇到了Hadoop集群管理的问题."我们正在更新Hadoop软件,并试图将其迁移到新的集群,但并没有找到监控集群的好方法,"Clubb说道."你可以看到工作在运行,但你却不能看到其所使用

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集

一个助Hadoop集群数据快速上云工具

背景 越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上. 当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上. 在阿里云上使用最广泛的存储服务是OSS对象存储.OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这个工具无法读取Hadoop文件系统的数据,无法发挥Hadoop分布式的特点.并且因为工具只支持本地文件,所以需要将HDFS上的文件先

【Hadoop Summit Tokyo 2016】操纵云上基于Hadoop 集群的YARN

本讲义出自Abhishek Modi在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Qubole的Hadoop技术.Qubole的架构设计.短生命周期的Hadoop集群的相关内容以及面对的挑战以及YARN的自动扩展和不断发展的HDFS技术.