利用php抓取蜘蛛爬虫痕迹的示例代码

前言

相信许多的站长、博主可能最关心的无非就是自己网站的收录情况，一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面，不过，如果用php代码分析web日志中蜘蛛爬虫痕迹，是比较好又比较直观方便操作的！下面是示例代码，有需要的朋友们下面来一起看看吧。

示例代码

<?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array( 'Google' => 'googlebot', 'Baidu' => 'baiduspider', 'Yahoo' => 'yahoo slurp', 'Soso' => 'sosospider', 'Msn' => 'msnbot', 'Altavista' => 'scooter ', 'Sogou' => 'sogou spider', 'Yodao' => 'yodaobot' ); $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']); foreach ($bots as $k => $v){ if (strstr($v,$userAgent)){ return $k; break; } } return false; } //获取哪种蜘蛛爬虫后保存蜘蛛痕迹。 //根据采集时HTTP_USER_AGENT是否为空来防止采集 //抓蜘蛛爬虫 $spi = isSpider(); if($spi){ $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); $file = 'robot.txt'; $time = date('Y-m-d H:i:s',mktime()); $handle = fopen($file,'a+'); $PR = $_SERVER['REQUEST_URI']; fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r"); fclose($handle); } ?>

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有问题大家可以留言交流。

时间： 2024-10-18 11:57:04

利用php抓取蜘蛛爬虫痕迹的示例代码的相关文章

利用php抓取蜘蛛爬虫痕迹的示例代码_php实例

前言相信许多的站长.博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧. 示例代码 <?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array( 'Google' => 'googlebot', 'Baidu' => 'baidus

利用curl抓取远程页面内容的示例代码

利用curl抓取远程页面内容的一个小示例,需要的朋友可以过来参考下最基本的操作如下复制代码代码如下: $curlPost = 'a=1&b=2';//模拟POST数据 $ch = curl_init(); curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0')); //构造IP curl_setopt($ch, CURLOPT_REFERER, "ht

利用curl抓取远程页面内容的示例代码_php技巧

最基本的操作如下复制代码代码如下: $curlPost = 'a=1&b=2';//模拟POST数据$ch = curl_init();curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0')); //构造IPcurl_setopt($ch, CURLOPT_REFERER, "http://www.jb51.net/"); //构造来路 cur

利用PHP抓取百度阅读的方法示例_php技巧

前言这篇文章主要介绍的是,如何利用PHP抓取百度阅读的方法,下面话不多说,来一起看看吧. 抓取方法如下首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的. 于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下. 经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是 http://wenku.baidu.com/content/49422a3

苏宁易购屏蔽一淘网抓取蜘蛛

苏宁易购robots屏蔽一淘爬虫一淘网仍在抓取京东与苏宁易购产品价格信息[TechWeb消息]10月27日消息,继京东商城屏蔽一淘网抓取蜘蛛后,苏宁易购也对一淘网抓取蜘蛛进行了屏蔽.对此,一淘网不予评论.此前,京东商城CEO刘强东发微博,指责一淘网未经允许直接抓取所有产品的评价.随后,京东商城对网站做了修改,通过技术手段屏蔽了一淘网的爬虫来抓取数据.一淘网表示:"作为购物搜索,从诞生的第一天起,一淘就定位于帮助消费者在全网范围内方便.聪明地比较购物.这一宗旨不会改变.我们希望让互联网透明,给消费

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

当当网取消屏蔽一淘网抓取蜘蛛或为未来合作铺路

当当网取消屏蔽一淘网抓取蜘蛛 5月8日消息,据网友爆料,当当网已经悄然取消防止一淘抓取信息的robots.txt文件.知情人士称,未来双方将有进一步合作. 此前,京东商城.苏宁易购.当当网先后屏蔽一淘网抓取蜘蛛,并引发京东商城与一淘网口水战.当当官方今日证实,已经取消屏蔽一淘抓取,但并未透露过多细节. 今年以来,当当网战略已经悄然发生改变,先后引入了乐淘.国美.东森.酒仙网等http://www.aliyun.com/zixun/aggregation/7860.html">垂直B2C,此

利用Python抓取行政区划码的方法_python

前言国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来. 注意:抓取下来以后还要进行简单的人工的整理示例代码: # -*- coding:utf-8 -*- ''' 获取国家统计局上的行政区划码 ''' import requests,re base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html' def get

asp抓取bing收录与反连代码

asp抓取bing收录与反连代码 <% response.expires = -1 response.addheader "cache-control","no-cache" Response.AddHeader "Pragma","no-cache" wd=Request("d") If Request("s")="bings" Then bingUrl=&q

猜你喜欢

gis开发-新手求教现在GIS开发多用什么样的开发环境呀

问题描述新手求教现在GIS开发多用什么样的开发环境呀我是个小白以前从来没接触过什么GIS开发,导师就让我做这个,有点摸不着头脑了,求大神指点!!! 解决方案看你做哪方面的开发了.桌面或Web ...

ASP简介

看了<如何令你的网站"动感十足">一文后,是否令你怦然心动?是否已经急不可待地想构建属于你自己的动态网站?本文将以Active Server Pages为中心,向你全面 ...

.net中一些所封装的类

封装 using System;using System.IO;using System.Web;using System.Data;using System.Web.UI;using System. ...

Servlet开发入门（5）取得初始化配置信息

在Servlet开发中要取得初始化参数用到了JSP内置对象中的config对象,此对象实际上就是ServletConfig对象的接口实例.这一篇文章讲解 Servlet初始化的参数的取得.就是在Ser ...

了解ASP.NET MVC几种ActionResult的本质：FileResult

FileResult是一个基于文件的ActionResult,利用FileResult我们可以很容易地将从某个物理文件的内容响应给客户端.ASP.NET MVC定义了三个具体的FileResult,分 ...

Oracle RAC ASM的基本操作维护

ASM(自动存储管理)是一个专门为Oracle数据库服务的数据文件存储机制,通过ASM管理数据文件,DBA不用再担心I/O性能问题,也不需要知道文件的名称,同时ASM也提供了文件系统到卷管理器的集成, ...

专家详解简单的四帧GIF动画制作方法

专家详解简单的四帧GIF动画制作方法看似简单的动画,制作起来还是非常需要技巧和方法的.作者在这方面非常有经验,而且用了非常详细的文字来描述动画从前期到结尾,我们需要用到哪些面板和动作,怎么新建图层和 ...

让Apache支持SHTML(SSI)的配置方法

shtml和asp有一些相似,以shtml命名的文件里,使用了ssi的一些指令,就像asp中的指令,你可以在SHTML文件中写入SSI指令,当客户端访问这些shtml文件时,服务器端会把这些SHTML ...

驱动人生有什么用

驱动人生是一款超百家硬件厂商,千万级用户认可的绿色.免费多用途软件,是电脑最佳的管理员.它提供给用户一流的驱动解决方案,全方位实现一键式从智能检测硬件到最匹配驱动安装升级的全过程.(可检测安装所有硬件 ...

仿谷歌主页js动画效果实现代码

昨天看到谷歌的主页上出现了几个动画,发现不是flash做的,而是用js+图片实现的!今天把拷贝到的图片,用js实现了动画效果! 源代码: 复制代码代码如下: <!DOCTYPE html ...

WindowsXp系统打开淘宝无法查看图片怎么办

现在,很多用户都习惯使用淘宝直接在网络上购买自己喜欢的东西.不过,最近一些Xp系统用户在使用ie浏览器上淘宝网购物时,发现打开任意界面都无法显示图片,只能看到文字,这该怎么办?其实,该问题是由于I ...

泡泡相框怎么创建相框

泡泡相框怎么创建相框?泡泡相框是一款较为新颖的相框设计应用,用户们只需要轻轻挥动手指就可以为自己的想拍编辑好相框,不过有不少人还不知道泡泡相框怎么创建相框,下面就让小编来给大家介绍一下泡泡相框创建 ...

地方网站内容获取是网站运营的第一大难关

在论坛上经常会看到一些站长发贴问现在什么类型的站有前途.地方站好不好.然而更多的时候当建起了地方站时,却发现了一个非常大的难关,那就是网站的内容无处可取.特别不是本地人建设本地站,如果没有一个好的地方 ...

2016深度学习统治人工智能？深度学习十大框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面.新智元在 2015 年底发过一篇文章<深度学习会让机器学习工程师失业吗?>,引起很大的反响.的确,过去一年的 ...

RARP的工作原理

1．发送主机发送一个本地的RARP广播,在此广播包中,声明自己的MAC地址并且请求任何收到此请求的RARP服务器分配一个IP地址: 2．本地网段上的RARP服务器收到此请求后,检查其RARP列表, ...

连接错误

问题描述 [img=http://hi.csdn.net/space-7134606-do-album-picid-747448-goto-down.html][/img] 解决方案解决方案二:LZ ...

如何随导出的excel的改动更新datagridview?

问题描述 winform程序实现从datagridview导出到excel,并当datagridview变化时,excel相应作变化(Excel.Application打开excel),反之,exce ...

java swing 中事件处理读取参数问题

问题描述 java swing 中事件处理读取参数问题在MyFrame类中有一个static double[][]二维数组,添加button按钮事件生成一新的类似于Excel窗口,输入数据并存入My ...

【干货】黄蔚欣：数据、行为与建筑设计

嘉宾介绍: 黄蔚欣:博士,主要从事基于大数据的建筑相关行为研究,以及数字建筑设计研究.日本京都大学博士,现任清华大学建筑学院副教授,亚洲计算机辅助建筑设计学会(CAADRIA)组织官员,数字建筑设计专 ...

华为将采用Tizen系统开发新智能手机

据报道,华为已经加入Tizen协会并表示计划用此系统开发手机.http://www.aliyun.com/zixun/aggregation/2527.html">Tizen手机操作系 ...

中国人工智能学会通讯——个性化推荐和资源分配在金融和经济中的应用 1.2 智能金融·个性化推荐

1.2 智能金融·个性化推荐第一类是关于个性化推荐的情况.我们刚才已经看到过的,有理财产品或者是金融类新闻的每天推送的情况.我们知道,对于不同的用户来说,可能关注点是不一样的,甚至有时用户自己都不知 ...

怎样让子窗口跟随父窗体

问题描述怎样让子窗口出来后就显示在父窗体的旁边解决方案解决方案二:显示子窗口的时候先设置位置.Location属性.解决方案三:主窗口的坐标+主窗口的宽高作为子窗口的坐标解决方案四:控件.Loc ...

《中国人工智能学会通讯》——11.41 相关工作

11.41 相关工作接下来简单介绍一下与实体链接相关的工作.学术界在很多年前已经意识到了实体排歧问题,并且提出了很多算法来解决这个问题.在传统的实体指代消解问题[17–23]中不存在知识库,它的任务 ...

RDLC动态列，一下链接中都做法，尝试做了一下，实现不了（急急急）

问题描述 RDLC动态列,一下链接中都做法,尝试做了一下,实现不了(急急急) 1 解决方案就是1的链接里面都文章.我做的跟这个类似...参照做了一下.结果不是这样的啊...如下图..急急急... 序 ...

阿里巴巴赴美上市最快在1个月内就将成行

证券时报记者朱凯根据业界估计,阿里巴巴赴美上市最快在1个月内就将成行,最晚或推迟至9月初. 不过,国内市场早就吆喝开了所谓的阿里巴巴首次公开募股(IPO)概念,并声称推出"海外定向资产管 ...

经验总结草根站长做网站要注意的几个问题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅今天网站出了一点小乱子,网站程序出 ...

微软发布Windows8.1力图挽回市场份额

微软很快将推出Windows 8操作系统的首个最大升级Windows 8.1,力求为新系统真去更多的市场份额.对此,Ovum的分析师理 Richard Edwards(查德·爱德华兹)认为,尽管微软在 ...

跪求如何解决Google经常无法访问的方法？

问题描述用Google访问老是提醒无法访问,过一段时间又可以访问.感觉百度的资料不是太全啊!!! 解决方案解决方案二:移民吧,兄弟解决方案三:的确应该考虑下哈哈解决方案四:撞到墙了呗,要学会跳过那 ...

《代码大全》学习笔记(4)：建立子程序的步骤

4.1 建立程序步骤概述按图4-1的顺序来进行. 4.2 程序设计语言(PDL) 有效使用PDL的一些方针:1)用模拟英语的语句来精确描述每一个特定操作:2)避免使用最终 ...

求购c#写的c/s结构进销存原带码用来学习

问题描述本人之前是用vb开发程序的,现在要改为c#,哪位大虾有现成在公司开发程序的原带码请给一份给我学习,愿酬谢,具体待商量!email:ken@szchh.com.cnqq:270660705 解 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.040 s.