Shell日志分析常用命令和例子_linux shell

学会用shell分析日志只要一上午!!!

很多地方分享了日志分析的shell脚本,但是基本没说每个命令符的具体含义,学习成本还是很高,在这里总结下,方便大家快速入门。

1、在Windows下的用户要使用shell命令符的话请先安装cygwin,安装方法自行Google(搜技术问题请使用google,百度搜不到活该)

2、下面粗略介绍下SEO日志分析常用的命令符用法,需要详细了解每个命令符请使用Google。

less 文件名 查看文件内容 按“q” 退出

cat 文件名 打开文件,可以多次打开几个文件 | cat 1.log 2.log |cat *.cat
grep -参数 文件名
-i 不区分大小写
-v 显示不符合条件的所有行
-c 显示符合条件的所有行数(符合条件的数量)

egrep 属于grep的升级版,在正则这一块的支持更完善,使用正则的时候建议使用egrep

head -2 文件名 显示2行
head -100 文件名 | tail -10 >>a.log 提取文件第91-100行数据

wc -参数 文件名 统计文本大小,字符多少,行数
-c 统计文本字节数
-m 统计文本字符数
-l 统计文本有多少行

sort – 参数 文件名 对文件进行排序
-n 对文件按照数字排序
-r 反向排序

uniq -参数 文件名 对文件去重,去重前需要使用排序

sort
-c 显示数据重复的次数

split -参数 文件名 对文件进行切割
-100 (每100行切割成一个文件)
-C 25m/b/k (每25兆/字节/K 分割成一个文件)

| 管道,把上一条命令的结果传输给下一条命令

“>” 和“>> ” 重定向写入文件中 “>”相当于“w”清空并写入 “>>”相当于“a” 追加进文件

 awk -F ‘分割符'  Pattern {action} 文件名 使用指定的字符对每一行数据进行分段,默认是空格(网站日志就是空格分开)
-F后面跟的是分隔符
pattern 就是action执行的条件,这里可以使用正则表达式
$n 即时第几段数据 $0表示整行数据
NF表示当前记录的字段数
$NF 表示最后一个字段
BEGIN和END,这两者都可用于pattern中,提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作

bash shell.sh 运行shell.sh脚本

dos2unix xxoo.sh 将“\r\n”转换成“\n” Windows——>linux (由于Windows和Linux下的换行符不同,所以我们在Windows下面下的代码需要使用dos2unix 转换成Linux下的换行符,否则运行shell脚本会报错)

unix2dos xxoo.sh 将“\n”转换成“\r\n” linux——>Windows
rm xx.txt 删除xx.txt文件

3、一些简单的命令符介绍到这里,需要了解shell,建议大家查看相关的书籍.

下面我们开始使用shell分析日志

1、切割百度的抓取数据(将文件切割出来对专门的爬虫数据进行处理能提高效率)

复制代码 代码如下:

cat log.log |grep -i ‘baiduspider' >baidu.log

2、网站状态码个数查询 

复制代码 代码如下:

awk ‘{print $9}' baidu.log|sort|uniq -c|sort -nr

3、百度总抓取量

复制代码 代码如下:

wc -l baidu.log

4、百度不重复抓取量 

复制代码 代码如下:

awk ‘{print $7}' baidu.log|sort|uniq|wc -l

5、百度平均每次抓取的数据大小(结果是KB)

复制代码 代码如下:

awk ‘{print $10}' baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}'

6、首页抓取量

复制代码 代码如下:

awk ‘$7~/\.com\/$/' baidu.log|wc -l

7、某目录抓取量

复制代码 代码如下:

grep ‘/news/' baidu.log|wc -l

8、抓取最多的10个页面

复制代码 代码如下:

awk ‘{print $7}' baidu.log|sort|uniq -c|sort -nr|head -10

9、找出抓取的404错误页面

复制代码 代码如下:

awk ‘$9~ /^404$/ {print $7}' baidu.log|sort|uniq|sort -nr

10、找出抓取了多少js文件和文件抓取的次数

复制代码 代码如下:

awk ‘$7~ /.js$/ {print $7}' baidu.log|sort|uniq -c |sort -nr

时间: 2024-09-16 10:38:14

Shell日志分析常用命令和例子_linux shell的相关文章

hbase shell基础和常用命令详解_linux shell

HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务. 1. 简介 HBase是一个分布式的.面向列的开源数据库,源于google的一篇论文<bigtable:一个结构化数据的分布式存储系统>.HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase

Linux 中 CURL常用命令详解_linux shell

下载单个文件,默认将输出打印到标准输出中(STDOUT)中 curl http://www.centos.org 通过-o/-O选项保存下载的文件到指定的文件中: -o:将文件保存为命令行中指定的文件名的文件中 -O:使用URL中默认的文件名保存文件到本地 # 将文件下载到本地并命名为mygettext.html curl -o mygettext.html http://www.gnu.org/software/gettext/manual/gettext.html # 将文件保存到本地并命名

Shell脚本实现自动发送邮件的例子_linux shell

1.编辑用户Home目录下的.muttrc文件,设置发信环境. 复制代码 代码如下: # cat /root/.muttrc set envelope_from=yes set from=owinux@sina.cn set realname="Owinux" set use_from=yes set rfc2047_parameters=yes set charset="utf-8" 2.发信脚本 复制代码 代码如下: # cat automail.sh #!/b

linux下执行shell命令方法简介_linux shell

linux下执行shell命令有两种方法  在当前shell中执行shell命令 在当前shell中产生一个subshell,在subshell中执行shell命令  1.在当前shell中执行shell命令 主要就是在命令行中通过交互方式方式直接输入shell命令,命令行直接执行给出结果.比如这样: 2.在当前shell中产生一个subshell,在subshell中执行shell命令 比如我们把shell写成shell脚本的方式来运行,这个时候会先启动一个subshell来代替当前的shel

HBase shell基础和常用命令详解

http://www.aliyun.com/zixun/aggregation/13713.html">HBase是一个分布式的.面向列的开源数据库,源于google的一篇论文<bigtable:一个结构化数据的分布式存储系统>.HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务. 1. 简介 HBase是一个分布式的.面向列的

Nodejs进阶:readline实现日志分析+简易命令行工具

本文摘录自<Nodejs学习笔记>,更多章节及更新,请访问 github主页地址.欢迎加群交流,群号 197339705. 模块概览 readline是个非常实用的模块.如名字所示,主要用来实现逐行读取,比如读取用户输入,或者读取文件内容.常见使用场景有下面几种,本文会逐一举例说明.本文相关代码可在笔者github上找到. 文件逐行读取:比如说进行日志分析. 自动完成:比如输入npm,自动提示"help init install". 命令行工具:比如npm init这种问答

linux awk时间计算脚本及awk命令详解_linux shell

在linux如果计划时间是个麻烦事, 用awk脚本如下 BEGIN {FS=":";OFS=":"} {total_seconds=total_seconds+$3} total_seconds>=60 {total_seconds=total_sconds-60 $2=$2+1 } {total_minutes=total_minutes+$2 $2=$2+1 } {total_minutes=total_minutes+$2} total_minutes&

linux中scp命令和scp命令用法大全_linux shell

scp就是secure copy,是用来进行远程文件拷贝的.数据传输使用ssh1,并且和ssh1使用相同的认证方式,提供相同的安全保证.与rcp不同的是,scp会要求你输入密码如果需要的话. svn 删除所有的 .svn文件 find . -name .svn -type d -exec rm -fr {} \; linux之cp/scp命令+scp命令详解   名称:cp 使用权限:所有使用者 使用方式: cp [options] source dest cp [options] source

shell版Nginx日志蜘蛛爬取查看脚本_linux shell

shell版Nginx日志蜘蛛爬取查看脚本 用之前改一下nginx日志的路径即可 如果 更多的蜘蛛 自己在 代码蜘蛛UA数组里加即可 #!/bin/bash m="$(date +%m)" case $m in "01") m='Jan';; "02") m='Feb';; "03") m='Mar';; "04") m='Apr';; "05") m='May';; "06&