shell版Nginx日志蜘蛛爬取查看脚本_linux shell

shell版Nginx日志蜘蛛爬取查看脚本

用之前改一下nginx日志的路径即可
如果更多的蜘蛛自己在代码蜘蛛UA数组里加即可

#!/bin/bash

m="$(date +%m)"
case $m in
  "01") m='Jan';;
  "02") m='Feb';;
  "03") m='Mar';;
  "04") m='Apr';;
  "05") m='May';;
  "06") m='June';;
  "07") m='July';;
  "08") m='Aug';;
  "09") m='Sept';;
  "10") m='Oct';;
  "11") m='Nov';;
  "12") m='Dec';;
esac
d="$(date +%d)"

spider=(
  Googlebot
  Baiduspider
  Sogou
  YisouSpider
  360Spider
)
for i in ${spider[*]}; do
  echo -e "$i \t" `cat 此处修改为nginx访问log |grep $d/$m|grep $i|wc -l`
done

以上所述就是本文的全部内容了，希望能对大家熟悉shell脚本有所帮助。

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索shell
， Nginx日志
蜘蛛爬取
如何查看蜘蛛爬取日志、蜘蛛爬取日志、nginx 蜘蛛日志、nginx 日志分析 shell、蜘蛛爬取，以便于您获取更多的相关知识。

时间： 2024-10-02 21:32:49

shell版Nginx日志蜘蛛爬取查看脚本_linux shell的相关文章

shell使用mysqld_multi自动做多实例从库脚本_linux shell

复制代码代码如下: # cat doallslave.sh#!/bin/sh#code by scpman#mail:scpman@live.com#blog:http://www.scpman.com#name:"doallslave.sh"helpinfo(){echo -e '\t\thelp 查看帮助信息'echo -e '\t\t自动做allslave从库脚本使用帮助'echo -e '\t\tslavename 只能是xxx_xxx这种命令例如:zq2013_test1'

使用shell检查并修复mysql数据库表的脚本_linux shell

复制代码代码如下: #!/bin/sh#code by scpman#功能:检查并修复mysql数据库表#将此脚本加到定时中,脚本执行时,等会读库,列出要修复的所有表,然后计时,开始修复#修复过程中将损坏的表记录下来,修复完成后,将损坏的表,发邮件通知.fix_logs='/tmp/fix.log'user=''pass=''check_fix(){dblist=`/usr/bin/find /usr/dlm_db/mysql/ -type d | grep -vE "logs|_[1-9]|

分析蜘蛛爬取思路来加快百度快照以及被收录

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅大家好,我相信很多站长朋友都对蜘蛛不陌生吧?做网站的基本都知道蜘蛛是什么,其实蜘蛛就是一个搜索引擎的爬取程序,用来收录网站,然后在搜索引擎里面搜索程序出来的页面,那么蜘蛛它爬取的原理有哪些,今天我给大家来分享一下我对蜘蛛的了解以及看法. 一.蜘蛛爬取原理大自然的蜘蛛我相信大家都看到过,它是通过网来进行爬取的.而搜索引擎的蜘蛛是通过链接来爬取

浅谈如何利用蜘蛛爬取原理来提升网站权重

很多朋友对搜索引擎的蜘蛛都不会感到陌生,大家都能够通过IIS日志能够查到蜘蛛做客自己网站的记录,只要我们能够认真分析一下IIS日志,相信大家肯定能够找到蜘蛛运行的蛛丝马迹,从而利用蜘蛛的爬行原理来获得提升网站权重的钥匙,下面我们就来做一下具体的介绍! 一:分析一下蜘蛛的爬行原理搜索引擎的蜘蛛们主要是通过链接来爬取的,蜘蛛在网页上爬取到的链接就会放在一个单独的数据库里面,这些数据库都有自己的属性,通常后缀都有相关的域名信息,比如:.net..org..com..cn..com.cn等等. 然后蜘

不利于蜘蛛爬取的网页-蜘蛛陷阱

大家好,我是第一次在这上面发表文章,如有不好地方请高手多多指教. 1.搜索引擎能不能找到网页. 1要让搜搜引擎发现网站首页,就必须有良好的外部链接链接到首页,就找到了首页,然后蜘蛛会沿着链接爬的更深. 让蜘蛛通过简单的html页面的链接到达,javascript链接,flash链接都是蜘蛛的陷阱.这点要注意. 2找到网页后能不能抓去内容. 被发现的蜘蛛是可以被爬取的,数据库动态生成,带过很多的参数url.sessionID.整个页面都是flash.框架结构.大量的转向,和大量的复制内容都可能把蜘

根据蜘蛛爬取原理来提升网站权重方法

一:分析一下蜘蛛的爬行原理搜索引擎的蜘蛛们主要是通过链接来爬取的,蜘蛛在网页上爬取到的链接就会放在一个单独的数据库教程里面,这些数据库都有自己的属性,通常后缀都有相关的域名信息,比如:.net..org..com..cn..com.cn等等. 然后蜘蛛就会把这些域名后缀链接放到数据库,逐个爬取,很多人可能以为蜘蛛是通过点开链接的方式来爬行的,这自然是一种误解,如果算法是这样,那效率是极其低下的!蜘蛛还可以通过反链来爬取,而且通过发链爬取的次数越多,蜘蛛就会认为你网站非常受欢迎,从而就会给你网站

nginx日志切割shell脚本_linux shell

一.脚本思路第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志.在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linux是靠文件描述符而不是文件名定位文件. 第二步向nginx主进程发送USR1信号. nginx主进程接到信号后会从配置文件中读取日志文件名称,重新打开日志文件(以配置文件中的日志名称命名),并以工作进程的用户作为日志文件的所有者. 重新打开日志文件后,nginx主进程会关闭重名的日志文件并通知工作进程使用新打开的日志文件.

Linux系统下nginx日志每天定时切割的脚本写法_nginx

使用Linux系统自带的命令logrotate对Nginx日志进行切割. Nginx安装目录:/usr/local/nginx/ Nginx日志目录:/usr/local/nginx/logs/./usr/local/nginx/logs/nginx_logs/ 1.添加nginx日志切割脚本 cd /etc/logrotate.d #进入目录 vi /etc/logrotate.d/nginx #编辑脚本 /usr/local/nginx/logs/*.log /usr/local/nginx

linux Nginx 日志脚本_linux shell

任务计划 crontab -l 1 15 * * * /home/dongnan/sh/split.sh >> /home/dongnan/sh/cron.log 2>& nginx 日志 ls /var/log/nginx/ 20130730-access.log.gz 20130801-access.log.gz 20130803-access.log.gz 20130730-error.log.gz 20130801-error.log.gz 20130803-