判断是搜索引擎蜘蛛请求类

问题描述

谁有判断是搜索引擎蜘蛛请求类啊,只判断UserAgent就可以了。不用判断IP段。爬虫名称最好齐一点的,没有分了。求解答。

解决方案

解决方案二:
现在的大多数蜘蛛,不告诉你他自己是蜘蛛。
解决方案三:
引用1楼sp1234的回复:

现在的大多数蜘蛛,不告诉你他自己是蜘蛛。

那我要对搜索引擎返回单独页面怎么做呢?我需要一个判断。
解决方案四:
引用2楼q5789004的回复:

Quote: 引用1楼sp1234的回复:
现在的大多数蜘蛛,不告诉你他自己是蜘蛛。

那我要对搜索引擎返回单独页面怎么做呢?我需要一个判断。

你可以在web.config里还是哪里配置一下,告诉搜索引擎,这里不允许抓取,一般的正规的搜索引擎是会遵守约定的,不正规的你是无法判断的。

时间: 2024-11-09 00:11:29

判断是搜索引擎蜘蛛请求类的相关文章

PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结_php实例

1.推荐的一种方法:php判断搜索引擎蜘蛛爬虫还是人为访问代码,摘自Discuz x3.2 <?php function checkrobot($useragent=''){ static $kw_spiders = array('bot', 'crawl', 'spider' ,'slurp', 'sohu-search', 'lycos', 'robozilla'); static $kw_browsers = array('msie', 'netscape', 'opera', 'konq

php 判断访客是否为搜索引擎蜘蛛的函数代码_php技巧

复制代码 代码如下: /** * 判断是否为搜索引擎蜘蛛 * * @author Eddy * @return bool */ function isCrawler() { $agent= strtolower($_SERVER['HTTP_USER_AGENT']); if (!empty($agent)) { $spiderSite= array( "TencentTraveler", "Baiduspider+", "BaiduGame",

php判断搜索引擎蜘蛛爬虫的方法整理

先来看蜘蛛列表   搜索引擎 user-agent(包含) 是否PTR 备注 google Googlebot √ host ip  得到域名:googlebot.com主域名 baidu Baiduspider √ host ip  得到域名:*.baidu.com 或 *.baidu.jp yahoo Yahoo! √ host ip  得到域名:inktomisearch.com主域名 Sogou Sogou × *Sogou web spider/3.0(+http://www.sogo

搜索引擎蜘蛛原理深入剖析

  经常与站长打交道,定期组织A5杂谈站长录活动,对于搜索引擎蜘蛛工作原理也有一定了解,再此总结个人的一些心得,没有涉及到任何的技术,重在思维.认真读的朋友,一定会有收获. 搜索引擎好比总司令,蜘蛛就是他的手下.蜘蛛也分等级,我们就简单分成3个等级,初级蜘蛛(普通士兵),中级蜘蛛(普通军官),高级蜘蛛(高级军官). 我们一直认为蜘蛛很神秘,其实很简单,其原理是.它就相当一个我们有经常用到的采集器,能抓取到你网站的页面,将你网站页面的内容放入自己的数据库,将采集到的结果与数据库原有的信息一一进行匹

从五个方面下手 让搜索引擎蜘蛛恋上你的站点

假如搜索引擎无法很好的游览到我们站点的内容,那么我们即使在站点投入多大的精力也都是竹篮打水一场空.为了避免该事情发生最好的解决之道就是我们能够很完整的去规划好我们整个站点的结构. 首先,我们在开始构建我们站点之前,我们都是需要先去好好的分析搜索引擎爬行的模式与规律,因为我们都知清楚搜索引擎是借助"蜘蛛"爬行我们站点源代码进行抓取链接,从而很好搜集我们的站点页面,从而入库到搜索引擎数据库,这就是搜索引擎简要的收录过程,同时搜索引擎会根据一定的算法,如页面的速度.社会信号等等进行权重的分配

搜索引擎蜘蛛为什么会不访问你的网站

许多站长都有查看网站日志的习惯,这么做的主要目的就是为了分析蜘蛛爬行网站的情况,当然其中多数站长也只是简单的了解一下当天蜘蛛爬行的次数,这一点就足够发现问题了.有时候,我们会觉得自己的网站已经相当完美了,而正常优化过程中,蜘蛛却对此不感冒,让人很是着急.   了解原理就很容易理解,搜索引擎借助蜘蛛在互联网这张大网中搜寻"猎物",它唯一所能依据的线索就是链接了,找到新的链接后,根据复杂的算法最终对网站进行排名,储存在数据库中.很多网站可能会因为网站结构混乱失去蜘蛛到访的机会,然而蜘蛛不访

搜索引擎蜘蛛爬行统计分析

一.搜索引擎蜘蛛爬行统计分析的必要性: 蜘蛛顺利爬行网页是网页被搜索引擎收录的前提条件,搜索引擎是否已爬行了网站,爬行了哪些页面以及返回哪些信息给蜘蛛,掌握了这些情况我们才能对网站进行有针对性的优化改良,因此查看蜘蛛爬行日志是一件非常重要但却非常痛苦的工作,尤其是SEOER及新站站长来说.比如从网上看到蜘蛛爬行某个页面后如果返回200 0 64 ,则表示此网页极有可能要被搜索引擎删除,HEAD 请求返回404也表示要删除网页,如果我们能根据日志及时发现此现象就能根据实际情况及时做出调整.又如,蜘

最新各大搜索引擎蜘蛛名称整理分享

各大seo 搜索引擎的蜘蛛会不断地访问抓取我们站点的内容,也会消耗一定的站点流量,有时候就需要屏蔽某些蜘蛛访问我们的站点.其实常用的搜索引擎就那么几个,只要在robots文件里把常用的几个搜索引擎蜘蛛放行就好,其它的统统通过通配符(*)禁止掉.阿修百度了一下搜索引擎蜘蛛名称,但得到的结果让阿修很是抑郁,几乎都是原文复制粘贴的文章,而且很多的资料都是过时的了,哪怕是最近发表的文章也是抄袭的旧资料根本就没修正和更新,并且关于蜘蛛名称.大小写众说不一,根本就找不到一个准确的资料.所以阿修决定根据自己空

iOS网络编程之四——请求类NSURLRequest使用详解

iOS网络编程之四--请求类NSURLRequest使用详解 一.引言         在前面几篇博客中,介绍了iOS开发中的网络编程相关内容并且介绍了常用了两个平行的网络框架NSURLSession和NSURLConnection.无论是NSURLSession类还是NSURLConnection类,其网络请求都是通过NSURLRequest类进行发起的,本篇博客将介绍NSURLRequest类的用法和其中请求属性的设置.         前几篇博客地址如下: 1.iOS网络框架介绍:http