利用php抓取蜘蛛爬虫痕迹的示例代码_php实例

前言

相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧。

示例代码

<?php
//获取蜘蛛爬虫名或防采集
function isSpider(){
  $bots = array(
          'Google'  => 'googlebot',
          'Baidu'    => 'baiduspider',
          'Yahoo'    => 'yahoo slurp',
          'Soso'    => 'sosospider',
          'Msn'    => 'msnbot',
          'Altavista'  => 'scooter ',
          'Sogou'    => 'sogou spider',
          'Yodao'    => 'yodaobot'
      );
  $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
  foreach ($bots as $k => $v){
    if (strstr($v,$userAgent)){
      return $k;
      break;
    }
  }
  return false;
}
//获取哪种蜘蛛爬虫后保存蜘蛛痕迹。
//根据采集时HTTP_USER_AGENT是否为空来防止采集
//抓蜘蛛爬虫
$spi  = isSpider();
if($spi){
  $tlc_thispage  = addslashes($_SERVER['HTTP_USER_AGENT']);
  $file      = 'robot.txt';
  $time      = date('Y-m-d H:i:s',mktime());
  $handle      = fopen($file,'a+');
  $PR        = $_SERVER['REQUEST_URI'];
  fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
  fclose($handle);
}
?>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有问题大家可以留言交流。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索php
, 蜘蛛爬虫
, 爬虫获取数据
php蜘蛛爬行记录
java爬虫抓取网页数据、爬虫抓取、python爬虫抓取图片、python爬虫抓取数据、java爬虫抓取网页图片,以便于您获取更多的相关知识。

时间: 2024-11-08 22:03:37

利用php抓取蜘蛛爬虫痕迹的示例代码_php实例的相关文章

利用php抓取蜘蛛爬虫痕迹的示例代码

前言 相信许多的站长.博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧. 示例代码 <?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array( 'Google' => 'googlebot', 'Baidu' => 'baidus

利用curl抓取远程页面内容的示例代码_php技巧

最基本的操作如下 复制代码 代码如下: $curlPost = 'a=1&b=2';//模拟POST数据$ch = curl_init();curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0'));  //构造IPcurl_setopt($ch, CURLOPT_REFERER, "http://www.jb51.net/");   //构造来路 cur

利用curl抓取远程页面内容的示例代码

利用curl抓取远程页面内容的一个小示例,需要的朋友可以过来参考下   最基本的操作如下 复制代码 代码如下: $curlPost = 'a=1&b=2';//模拟POST数据 $ch = curl_init(); curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0'));  //构造IP curl_setopt($ch, CURLOPT_REFERER, "ht

利用PHP抓取百度阅读的方法示例_php技巧

前言 这篇文章主要介绍的是,如何利用PHP抓取百度阅读的方法,下面话不多说,来一起看看吧. 抓取方法如下 首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的. 于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下. 经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是 http://wenku.baidu.com/content/49422a3

利用PHP和AJAX创建RSS聚合器的代码_php实例

想象使用一个简单HTML文件来把一个请求发送到一个服务器端脚本,收到一个基于该请求的定制XML文件,然后把它显示给用户而几乎不需要刷新浏览器!本文作者将同你一起探讨怎样在普通Web应用程序中联合PHP和AJAX技术来创建实时的数据传输而不需要进行浏览器刷新. 尽管本文所使用的是PHP语言,但是请记住任何服务器端语言都会正常工作.为了理解本文,我假定你基本理解JavaScript和PHP或一类似服务器端语言. 本文示例使用AJAX来把一请求从一个RSS馈送发送到一定制的PHP对象.该PHP对象复制

php利用腾讯ip分享计划获取地理位置示例分享_php实例

复制代码 代码如下: <?phpfunction getIPLoc_QQ($queryIP){    $url = 'http://ip.qq.com/cgi-bin/searchip?searchip1='.$queryIP;    $ch = curl_init($url);    curl_setopt($ch,CURLOPT_ENCODING ,'gb2312');  curl_setopt($ch, CURLOPT_TIMEOUT, 10);   curl_setopt($ch, CU

PHP利用MySQL保存session的实现思路及示例代码_php技巧

实现环境: PHP 5.4.24 MySQL 5.6.19 OS X 10.9.4/Apache 2.2.26 一.代码 CREATE TABLE `session` ( `skey` char(32) CHARACTER SET ascii NOT NULL, `data` text COLLATE utf8mb4_bin, `expire` int(11) NOT NULL, PRIMARY KEY (`skey`), KEY `index_session_expire` (`expire`

苏宁易购屏蔽一淘网抓取蜘蛛

苏宁易购robots屏蔽一淘爬虫一淘网仍在抓取京东与苏宁易购产品价格信息[TechWeb消息]10月27日消息,继京东商城屏蔽一淘网抓取蜘蛛后,苏宁易购也对一淘网抓取蜘蛛进行了屏蔽.对此,一淘网不予评论.此前,京东商城CEO刘强东发微博,指责一淘网未经允许直接抓取所有产品的评价.随后,京东商城对网站做了修改,通过技术手段屏蔽了一淘网的爬虫来抓取数据.一淘网表示:"作为购物搜索,从诞生的第一天起,一淘就定位于帮助消费者在全网范围内方便.聪明地比较购物.这一宗旨不会改变.我们希望让互联网透明,给消费

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;