使用PHP实现蜘蛛访问日志统计

本篇文章是对使用PHP实现蜘蛛访问日志统计的代码进行了详细的分析介绍,需要的朋友参考下
 
复制代码 代码如下:

$useragent = addslashes(strtolower($_SERVER['HTTP_USER_AGENT']));

 if (strpos($useragent, 'googlebot')!== false){$bot = 'Google';}
 elseif (strpos($useragent,'mediapartners-google') !== false){$bot = 'Google Adsense';}
 elseif (strpos($useragent,'baiduspider') !== false){$bot = 'Baidu';}
 elseif (strpos($useragent,'sogou spider') !== false){$bot = 'Sogou';}
 elseif (strpos($useragent,'sogou web') !== false){$bot = 'Sogou web';}
 elseif (strpos($useragent,'sosospider') !== false){$bot = 'SOSO';}
 elseif (strpos($useragent,'360spider') !== false){$bot = '360Spider';}
 elseif (strpos($useragent,'yahoo') !== false){$bot = 'Yahoo';}
 elseif (strpos($useragent,'msn') !== false){$bot = 'MSN';}
 elseif (strpos($useragent,'msnbot') !== false){$bot = 'msnbot';}
 elseif (strpos($useragent,'sohu') !== false){$bot = 'Sohu';}
 elseif (strpos($useragent,'yodaoBot') !== false){$bot = 'Yodao';}
 elseif (strpos($useragent,'twiceler') !== false){$bot = 'Twiceler';}
 elseif (strpos($useragent,'ia_archiver') !== false){$bot = 'Alexa_';}
 elseif (strpos($useragent,'iaarchiver') !== false){$bot = 'Alexa';}
 elseif (strpos($useragent,'slurp') !== false){$bot = '雅虎';}
 elseif (strpos($useragent,'bot') !== false){$bot = '其它蜘蛛';}
 if(isset($bot)){
     $fp = @fopen('bot.txt','a');
     fwrite($fp,date('Y-m-d H:i:s')."t".$_SERVER["REMOTE_ADDR"]."t".$bot."t".'http://'.$_SERVER['SERVER_NAME'].$_SERVER["REQUEST_URI"]."rn");
     fclose($fp);
 }

时间: 2024-10-30 13:35:12

使用PHP实现蜘蛛访问日志统计的相关文章

使用PHP实现蜘蛛访问日志统计_php技巧

复制代码 代码如下: $useragent = addslashes(strtolower($_SERVER['HTTP_USER_AGENT']));  if (strpos($useragent, 'googlebot')!== false){$bot = 'Google';} elseif (strpos($useragent,'mediapartners-google') !== false){$bot = 'Google Adsense';} elseif (strpos($usera

PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT_php技巧

PHP屏蔽蜘蛛访问代码代码: 常用搜索引擎名与 HTTP_USER_AGENT对应值 百度baiduspider 谷歌googlebot 搜狗sogou 腾讯SOSOsosospider 雅虎slurp 有道youdaobot Bingbingbot MSNmsnbot Alexais_archiver function is_crawler() { $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']); $spiders = array( '

asp.net-根据访问日志统计访问量最高的前N个IP

问题描述 根据访问日志统计访问量最高的前N个IP Windows Phone 8.1 的应用框架; 2. Windows Phone 8.1 与 Windows Phone 8.0 导航的不同; 3. Frame.BackStack; 4. NavigationCacheMode; 5. NavigationHelper bar.cnyes.com/html/100201-30/8D142A5766B7924.shtmlbar.cnyes.com/html/100201-30/8D142A5BE

10分钟精通Nginx访问日志分析统计

简介 很多个人站长在搭建网站时使用nginx作为服务器,为了了解网站的访问情况,一般有两种手段: 使用CNZZ之类的方式,在前端页面插入js,用户访问的时候触发js,记录访问请求. 利用流计算.或离线统计分析nginx的access log,从日志中挖掘有用信息. 两种方式各有优缺点: CNZZ使用起来比较简单,各种指标定义清楚.但这种方式只能记录页面的访问请求,像ajax之类的请求是无法记录的,还有爬虫信息也不会记录. 利用流计算.离线计算引擎可以支持个性化需求,但需要搭建一套环境,并且在实时

日志服务+流计算+RDS 统计网站访问日志

本期分享专家:黄莉娟,具有多年前端开发经验,曾就职于天基,在阿里云从事大数据产品.日志服务.消息产品的技术支持,喜欢研究新技术分享新产品.我的口号"我就爱玩新产品!别叫我停下来" 众所周知,在阿里云所有的产品里,很多产品不需要写代码也能做出炫酷的demo,操作简单,容易上手.最近流计算开始公测,所谓世间万事万物,我们都要挑点来尝尝,拿它做个什么demo捏,在思考了四分之一柱香之后,我决定写一个先有鸡还是先有蛋的故事. 是的,写个自己统计自己访问日志的网站,是不是为了做demo完全不要节

命令行下Apache日志统计举例

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://chenguang.blog.51cto.com/350944/1414820 Apache日志统计举例 加些来了解一下如何统计Apache的访问日志,一般可以用tail命令来实时查看日志文件变化,但是各种的应用系统中的日志会非常复杂,一堆长度超过你浏览极限的日志出现在你眼前时,你会觉得非常无奈,怎么办呢?这时可以用grep.sed.awk和sort等筛选工具帮助你解决这个问题.

网站访问日志统计分析

场景 用户使用ECS搭建网站,网站的访问日志(Nginx,Apache访问日志)收集到阿里云日志服务中供查询.为了从访问日志中挖掘出更多价值,日志服务提供了一个docker镜像,用于实时统计和展示网站访问的一系列指标,例如PV,UV,延时,地理,状态码,爬虫,网络流量等指标. 指标 PV 分别以5分钟.1小时.1天为统计周期,统计每个周期内的日志总数. UV 分别以1小时.1天为统计周期,统计每个周期内的IP总数. 页面 以天为统计周期,统计访问最多的页面路径,以及访问最多的参数.例如请求/fo

Nginx学习之自定义访问日志

写在开始 日志的重要性不言而喻,一般来说我们开发过程中会为每个项目定义自己的日志格式以及存储路径. 就我们普通的JAVAWEB项目来说,重要的日志一般输出并存放在Tomcat的log目录下,并区分日志输出级别.用于区分,查阅并统计相关日志信息. 当然,这不是重点,重点是很多公司,对于日志的重要性似乎并不是那么重视,当然这可能跟平台本身有一定的关系. 日志配置 其实分析Nginx日志,可以得到很多有用的数据,响应耗时的url.请求时间,各个时间段的请求量,并发量.配合使用ELK日志系统可以很好的呈

tomcat访问日志-log访问日志文件里只有用户访问的记录,并没有搜索引擎的爬行记录?

问题描述 log访问日志文件里只有用户访问的记录,并没有搜索引擎的爬行记录? 阿里云的ECS云服务器,tomcat7,log访问日志"localhost_access_log.2015-12-22.txt"文件里面只有用户访问的记录,并没有搜索引擎的爬行记录,我查看了所有的日志文件,全部只有用户访问记录,可以确定的是每天搜索引擎蜘蛛有爬行,不知道为什么会这样? service.xml配置文件对log访问日志的配置是这样写的: prefix="localhost_access_