php记录搜索引擎蜘蛛抓取页面代码

php教程记录搜索引擎教程蜘蛛抓取页面代码
error_reporting(E_ALL & ~E_NOTICE);

$tlc_thispage = addslashes($_SERVER['HTTP_REFERER'].$_SERVER['PHP_SELF']);/*($_SERVER ['HTTP_HOST'].$_SERVER['PHP_SELF']);($_SERVER['HTTP_USER_AGENT']);*/
//添加蜘蛛的抓取记录
$searchbot = get_naps教程_bot();
if ($searchbot) {
@mysql教程_connect('localhost','root') or die('不能链接数据库教程'.mysql_error());
@mysql_select_db('spider') or die('不能选择数据库'.mysql_error());

mysql_query("UPDATE bot SET botcount=botcount+1, botlast=NOW(), botlasturl='$tlc_thispage' WHERE botname='$searchbot'");
}
mysql_close();

function get_naps_bot()
{
        $useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
                      
        if (strpos($useragent, 'googlebot') !== false){
                return 'Googlebot';
        }
      
        if (strpos($useragent, 'msnbot') !== false){
                return 'MSNbot';
        }
      
        if (strpos($useragent, 'slurp') !== false){
                return 'Yahoobot';
        }
      
        if (strpos($useragent, 'baiduspider') !== false){
                return 'Baiduspider';
        }
      
        if (strpos($useragent, 'sohu-search') !== false){
                return 'Sohubot';
        }
      
        if (strpos($useragent, 'lycos') !== false){
                return 'Lycos';
        }
      
        if (strpos($useragent, 'robozilla') !== false){
                return 'Robozilla';
        }      
  if(strpos($useragent,'msie 6.0')!==false){  //这条是我自己测试用的(我的浏览器就是ie6.0)
    return 'MSIE 6.0';
  }
        return false;
}

?>

</body>
</html>

时间: 2024-10-28 00:20:57

php记录搜索引擎蜘蛛抓取页面代码的相关文章

页面被蜘蛛抓取后将被如何建立索引?

搜索引擎的数据库,是一个庞大复杂的索引数据库.你想知道你的网站页面被蜘蛛抓取后,会被怎样索引,搜索引擎为你的这个页面建立什么样的页面文件吗? 请你细细阅读: 1首先,你的页面是"新"的,也就是原创与伪原创. 2搜索引擎蜘蛛抓取了您的网站后,读取页面编码,作者,创建时间等属性信息. 3抓取网站内容信息,及我们常用的搜索引擎抓取模拟工具得出来的文字内容. 不知道这里能不能贴那么多抓取信息,这里就不给出来,大家可以到http://tool.chinaz.com/Tools/Robot.asp

蜘蛛抓取网页过程的四步曲

随着搜索引擎的不断发展与升级,搜索引擎所派出的蜘蛛也变得越来越智能了,所以为了要弄清楚蜘蛛的工作原理,为了更好的优化自己的网站我们就必须不断的去研究蜘蛛.下面,我就和大家简单的聊聊蜘蛛的基本工作原理吧: 蜘蛛工作的第一步:爬行你网站的网页,寻找合适的资源. 蜘蛛它有一个特性,那就是他的运动轨迹通常都是围绕着蜘蛛丝而走的,而我们之所以将搜索引擎的机器人命名为蜘蛛其实就是因为这个特性.当蜘蛛来到你的网站之后,它就会顺着你网站中的链接(蜘蛛丝)不断的进行爬行,因此如何让蜘蛛能够更好的在你的网站中进行爬

php记录搜索引擎蜘蛛爬行记录代码

php教程记录搜索引擎蜘蛛爬行记录代码 <center> <form action="setup.php" method="post"> <table align="center"> <tr> <td>服务器:</td><td><input value="localhost" name="server" />&l

php抓取页面与代码解析 推荐_php技巧

得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来.下面先简单说一下本文的主要内容: 一. PHP抓取页面的主要方法: 1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式 4.curl方式 5. fsockopen()函数 socket模式 6. 使用插件(如:http://sourceforge.net/projects/snoopy/) 二.PHP解析html或x

asp抓取页面的代码

 <%    if trim(request.form("url"))<>"" then    dim VBody:VBody=GetResStr(trim(request.form("url")))    dim Res:Res=VBody    dim code:code=GetCode(VBody,"charset= {0,}([^ ]+) {0,}""")    end if   

WordPress博客如何记录搜索引擎蜘蛛爬行痕迹

WordPress博客记录seo/seo.html" target="_blank">搜索引擎蜘蛛爬行痕迹插件: 1.搜索引擎蜘蛛爬行记录器Spider Tracker插件可以记录百度.谷歌.雅虎.必应.搜狗.搜搜6种搜索引擎的蜘蛛爬行痕迹,并生成统计图表,可以清晰的看到,近6日的各种搜索引擎的蜘蛛数量,以及当日的哪些时间,蜘蛛来过站里,又抓取了哪些网址. 2.wp-log-robots 插件大小仅3KB,wp-log-robots是一个记录搜索引擎蜘蛛爬虫活动记录的W

PHP记录搜索引擎蜘蛛访问网站足迹的方法_php技巧

本文实例讲述了PHP记录搜索引擎蜘蛛访问网站足迹的方法.分享给大家供大家参考.具体分析如下: 搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类.性别等因素,我们在通过数据库或者文本来记录就可以进行统计了. 数据库结构: 以下为引用的内容: # # 表的结构 `naps_stats_bot` # CREATE TABLE `na

分享如何通过robot灵活控制蜘蛛抓取

做SEO没有人不知道蜘蛛吧,robot.txt文件就是和蜘蛛交流的文件,很多人都会说介绍要怎么让蜘蛛来爬行,却很少人知道用robot.txt去操控蜘蛛,robot.txt用得好的话蜘蛛可以为你所用.下面我来介绍一下如何操控蜘蛛. 一. 屏蔽相同页面 搜索引擎是个喜新厌旧的东西,不会去收录重复的也或者已有的页面,即使收录了后期也会被删掉,所以一开始我们可以打开robots文件,写入禁止蜘蛛来读取这个页面的代码,给蜘蛛来下个好印象,反之印象分会大大减分,影响将来蜘蛛来爬行网站. 二.维护网站安全 利

卢松松:搜索引擎如何抓取你的网页

搜索引擎优化(SEO)是搜索引擎有好的收录网页的过程,适当的SEO有利于蜘蛛爬行你的网站,使你的内容符合搜索引擎算法,以便确认它与关键词高度相关. 优化的目的就是使网页的内容便于蜘蛛理解,下面我就以百度新收录的一篇内容来进行说明,我以一个完整标题进行搜索,其目的是能反映出更多关键词在百度自然搜索的结果页面,能更好的说明搜索引擎是如何抓取你的网页的.   (图一:百度最常见的自然搜索结果列表) SEOer通常关注的是网页主体部分的自然搜索结果,百度和Google搜索结果页面大致相同,搜索结果页面通