Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为_linux shell

摘要

做好网站SEO优化的第一步就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响网站的速度。

Linux shell命令

1. 百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

最左面的数值显示的就是爬行次数。

2. 百度蜘蛛的详细记录(Ctrl C可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。

3. 百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。

4. 百度蜘蛛派性记录时间点分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

5. 百度蜘蛛爬行页面按次数降序列表

cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。

附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

cat access.log | grep Mediapartners

Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!

ps:linux下nginx如何启用网站日志,查看蜘蛛爬虫

默认的路径是你安装时候指定的

如果用的LNMP之类的安装包

你可以在SHELL下

whereisnginx

找到相应的路径之后

在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话

在配置文件里有路径的~

时间: 2025-01-23 15:01:34

Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为_linux shell的相关文章

Linux/Nginx查看搜索引擎蜘蛛爬虫的行为脚本

1. 百度蜘蛛爬行的次数 cat access.log | grep Baiduspider | wc 最左面的数值显示的就是爬行次数. 2. 百度蜘蛛的详细记录(Ctrl C可以终止) cat access.log | grep Baiduspider 也可以用下面的命令: cat access.log | grep Baiduspider | tail -n 10 cat access.log | grep Baiduspider | head -n 10 只看最后10条或最前10条,这用就

php判断搜索引擎蜘蛛爬虫的方法整理

先来看蜘蛛列表   搜索引擎 user-agent(包含) 是否PTR 备注 google Googlebot √ host ip  得到域名:googlebot.com主域名 baidu Baiduspider √ host ip  得到域名:*.baidu.com 或 *.baidu.jp yahoo Yahoo! √ host ip  得到域名:inktomisearch.com主域名 Sogou Sogou × *Sogou web spider/3.0(+http://www.sogo

Linux 下dmidecode查看内存条数的命令介绍_Linux

在linux下有很多命令,可以查看机器的硬件信息. 这里介绍一个查看内存的条数等信息的方法. 相看硬件信息,仅适合ubuntu系列发行版: lshw Linux 下查看内存条数: dmidecode |grep -A16 "Memory Device$" 有关dmidecode命令的详细用法,请参考这篇文章:linux查看主板内存槽与内存信息的命令dmidecode . 以上就是小编为大家带来的Linux 下dmidecode查看内存条数的命令介绍全部内容了,希望大家多多支持~ 以上是

很实用的Linux 系统运维常用命令及常识(超实用)_linux shell

1 文件管理2 软件管理3 系统管理 4 服务管理5 网络管理6 磁盘管理 7 用户管理8 脚本相关9 服务配置 ================================== ---------------------------------- 1 文件管理 ---------------------------------- 创建空白文件 touch 不提示删除非空目录 rm -rf 目录名 (-r:递归删除-f 强制) ################################

linux查看所有用户和查看用户组的方法(修改用户组)_linux shell

1.linux里查看所有用户 (1)在终端里.其实只需要查看 /etc/passwd文件就行了.(2)看第三个参数:500以上的,就是后面建的用户了.其它则为系统的用户. 或者用cat /etc/passwd |cut -f 1 -d : 2.用户管理命令 useradd 注:添加用户adduser 注:添加用户passwd 注:为用户设置密码usermod 注:修改用户命令,可以通过usermod 来修改登录名.用户的家目录等等:pwcov 注:同步用户从/etc/passwd 到/etc/s

在Linux系统上查看Apache服务器的错误日志_Linux

错误日志和访问日志文件为系统管理员提供了有用的信息,比如,为 Web 服务器排障,保护系统不受各种各样的恶意活动侵犯,或者只是进行各种各样的分析以监控 HTTP 服务器.根据你 Web 服务器配置的不同,其错误/访问日志可能放在你系统中不同位置. 本文可以帮助你找到Linux上的Apache错误日志.Debian,Ubuntu或Linux Mint上的Apache错误日志位置 默认的错误日志 在基于Debian的Linux上,系统范围的Apache错误日志默认位置是/var/log/apache

linux命令详解之挂载光驱的方法_linux shell

linux的硬件设备在/dev目录下,光驱也是其中./dev/cdrom表示光驱,挂载光驱的方法如下(以root身份): 复制代码 代码如下: mkdir /mnt/cdrommount  -t auto  -o ro  /dev/cdrom    /mnt/cdrom  #不加参数也能自动挂上. 以下是操作的屏幕复制内容: 复制代码 代码如下: linux@cdyemail:/$ ls /mnt   #查看mnt下面有没有cdrom目录 ,这个是随意的目录.cdrom  iso  usb  w

linux命令详解之useradd命令使用方法_linux shell

Linux 系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统.用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪,并控制他们对系统资源的访问:另一方面也可以帮助用户组织文件,并为用户提供安全性保护.每个用户账号都拥有一个惟一的用户名和各自的口令.用户在登录时键入正确的用户名和口令后,就能够进入系统和自己的主目录. 实现用户账号的管理,要完成的工作主要有如下几个方面:用户账号的添加.删除与修改.用户口令的管

Linux上安装和卸载rpm软件包的方法_linux shell

Linux上安装和卸载rpm软件包的方法如下所示: 1.如何安装rpm软件包 rmp软件包的安装可以使用程序rpm来完成.执行下面的命令 rpm -i your-package.rpm 其中your-package.rpm是你要安装的rpm包的文件名,一般置于当前目录下. 安装过程中可能出现下面的警告或者提示: ... conflict with ... 可能是要安装的包里有一些文件可能会覆盖现有的文件,缺省时这样的情况下是无法正确安装的可以用 rpm --force -i 强制安装即可 ...