IIS日志分析搜索引擎爬虫记录程序

使用注意:

  修改iis.php文件中iis日志的绝对路径

  例如:$folder=”c:/windows/system32/logfiles/站点日志目录/”; //后面记得一定要带斜杠(/)。

  ( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看!

  直接查看法:http://站点域名/iis.php

  本地查看法:把日志下载到本地 http://127.0.0.1/iis.php )

  注意:

  //站点日志目录,注意该目录必须要有站点用户读取权限!

  //如果把日志下载到本地请修改143行的网址为您网站的网址,此操作不是必要操作,不影响分析结果。

  //修改文件名称iis.php 需要同时修改对应代码 ctrl+h 把 iis.php全部替换成您要修改的文件名 否则程序运行出错。

  //如果iis日志文件过大,可能会导致程序超时!同时也不建议大家使用!

 

以下是PHP源代码:
<?php
 /*
  牛仔IIS日志蜘蛛爬行记录分析器 V1.1(PHP GB2312 版)
  作者:牛仔
  QQ:172379201
  Email:17gd@163.com
 */
 //===================================================
  header("content-type:text/html; charset=gb2312");
 //站点日志目录,注意该目录必须要有站点用户读取权限!
 //如果把日志下载到本地请修改143行的网址为您网站的网址,此操作不是必要操作,不影响分析结果。
 //如果修改了文件名称iis.php 需要同时修改代码 Ctrl+H 把 iis.php全部替换成您要修改的文件名 否则程序运行出错。
 $folder="D:/Vhost/WebRoot/jooker82465/www/wordpress/uploads/W3SVC87164023/";  //后面记得一定要带斜杠 / !
 $pagesize = 50;//设置分页显示条数!
 //=========================
$type = addslashes($_GET[’type’]);
if ($type)$type = base64_decode($type);
$showfile = addslashes($_GET[’showfile’]);
$page = addslashes($_GET[’page’]);
if (!$page)$page=1;
//============================
 //打开目录
 if (!$type){
 if (file_exists($folder))
 {
  $fp=opendir($folder);
  while(false!=$file=readdir($fp))
  {
     if($file!=’.’ &&$file!=’..’)
     {
         $file="$file";
         $arr_file[]=$file;
        }
  }
  if(is_array($arr_file))
  {
   for ($i=count($arr_file)-1;$i>=0;$i--)
   {
    $indexstr.="
<tr><td height=\"25\" width=\"10%\">".date("Y-m-d",filectime($folder.$arr_file[$i]))."</td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(Baiduspider)."&showfile=".$arr_file[$i]."\">百度(Baidu)</a></td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(Googlebot)."&showfile=".$arr_file[$i]."\">谷歌(Google)</a></td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(yahoo)."&showfile=".$arr_file[$i]."\">雅虎(yahoo)</a></td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(YodaoBot)."&showfile=".$arr_file[$i]."\">有道(yodao)</a></td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(Sosospider)."&showfile=".$arr_file[$i]."\">搜搜(soso)</a></td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(Sogou)."&showfile=".$arr_file[$i]."\">搜狗(sogou)</a></td>
<td height=\"25\" width=\"10%\" align=\"center\">
<a href=\"iis.php?type=".base64_encode(msnbot)."&showfile=".$arr_file[$i]."\">微软(msn)</a></td>
</tr>";
   }
   }
 closedir($fp);
 $html = indexhtml();
 $copy = mycopy();
 $html = str_replace("[showlog]",$indexstr,$html);
 $html = str_replace("[copy]",$copy,$html);
 echo $html;
}else{
  echo "该日志目录不存在或权限不足,请检查设置!";
  exit();
 }
 }elseif ($type==’Baiduspider’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }elseif ($type==’Googlebot’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }elseif ($type==’yahoo’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }elseif ($type==’YodaoBot’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }elseif ($type==’Sosospider’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }elseif ($type==’Sogou’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }elseif ($type==’msnbot’){
  echo show($type,$folder,$showfile,$page,$pagesize);
 }

function show($type,$folder,$showfile,$page,$pagesize)
{
 if ($type==’Baiduspider’)
 {
  $title=’百度’;
 }elseif ($type==’Googlebot’){
  $title=’谷歌’;
 }elseif ($type==’yahoo’){
  $title=’雅虎’;
 }elseif ($type==’YodaoBot’){
  $title=’有道’;
 }elseif ($type==’Sosospider’){
  $title=’搜搜’;
 }elseif ($type==’Sogou’){
  $title=’搜狗’;
 }elseif ($type==’msnbot’){
  $title=’MSN’;
 }
 if ($type&&$folder&&$showfile)
 {
  if(file_exists($folder.$showfile))
  {
  $fp= fopen($folder.$showfile,"r");
  }else{
   echo "该日志文件不存在,请检查设置!";
   exit;
  }
  $j=0;
  $y=0;
  $t=0;
  $h=0;
  while (!feof($fp))
  {
   $str = fgets($fp);
    $str =iconv("UTF-8","GB2312//IGNORE",$str);
   if(strpos($str,$type))
   {
    $j++;
    $temp[].=$str;
    $tmpcount = explode(" ",$str);
    if ($tmpcount[11]==200)$t++;
    if ($tmpcount[11]==304)$h++;
    if ($tmpcount[11]==404)$y++;
   }
  }
  fclose($fp);
  $count = count($temp);
  if ($page==1)
  {
   $countshow=$count;
   $mynum = $count-$pagesize;
  }else{
   $countshow =$count-($page*$pagesize-$pagesize);
   $mynum = $count-$page*$pagesize;
  }
  $pagecount =ceil(count($temp) / $pagesize);
  if ($page>=$pagecount)
  {
   $mynum = $pagecount;
  }
  $m=0;
  for ($i=$countshow-1;$i>=$mynum;$i--)
  {
   $num = explode(" ",$temp[$i]);
            $domain="http://tarr.cn"; //网站URL 末尾不要带斜杠
    $show.="
<tr onMouseOut=\"this.style.backgroundColor=’#FFFFFF’\" onMouseOver=\"this.style.backgroundColor=’#F6F6F6’\">
<td class=\"c\" width=\"200;\">".$num[0]." ".$num[1]."</td>
<td class=\"c\">".$num[9]."</td>
<td class=\"pl\"><a href=\"$domain$num[5]\" _fcksavedurl="\"$domain$num[5]\"" target=\"_blank\">".$num[5]."</a></td>
<td class=\"c\">".$num[11]."</td>
</tr>";
  }
  unset($temp);
  $showpage = "<td colspan=\"4\" height=\"30\" align=\"center\">每页 ".$pagesize." 条 当前".$page."/$pagecount";
  $showpage.="  <a href=\"?type=".base64_encode($type)."&showfile=".$showfile."\">首页</a>";
  if ($page!=1)
  {
   $showpage.="  <a href=\"?type=".base64_encode($type)."&showfile=".$showfile."&page=".($page-1)."\">上一页</a>";
  }
  if ($page!=$pagecount)
  {
  $showpage.="  <a href=\"?type=".base64_encode($type)."&showfile=".$showfile."&page=".($page+1)."\">下一页</a>";
  $weei = "  <a href=\"?type=".base64_encode($type)."&showfile=".$showfile."&page=".($pagecount)."\">尾页</a>";
  }
  $showpage.=$weei."</td>";
  if ($show)
  {
  $html = pagehtml();
  $copy = mycopy();
  $htmltitle = "牛仔IIS日志蜘蛛爬行记录分析器 茄咧啡修改版";//请保留,谢谢!
  $html = str_replace("[title]",$title,$html);
  $html = str_replace("[htmltitle]",$htmltitle,$html);
  $html = str_replace("[show]",$show,$html);
  $html = str_replace("[count]",$j,$html);
  $html = str_replace("[page]",$showpage,$html);
  $html = str_replace("[y]",$y,$html);
  $html = str_replace("[t]",$t,$html);
  $html = str_replace("[h]",$h,$html);
  $html = str_replace("[copy]",$copy,$html);
  return $html;
  }
 }
}
function indexhtml()
{
 return ’<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>牛仔IIS日志蜘蛛爬行记录分析器 V1.1</title>
<style>
<!--
td{ font-size: 12px; font-family: serif; }
tr td p a:link,tr td p a:visited{
color:#000000;
text-decoration:none;
}
-->
</style>
</head>
<body>
<table border="1" width="100%" id="table1" cellspacing="0" cellpadding="0" style="border-collapse: collapse">
 <tr>
  <td colspan="8" bgcolor="#808080" height="30" align="center"><b>
  <font color="#FFFFFF" size="3">牛仔IIS日志蜘蛛爬行记录分析器 茄咧啡修改版</font></b></td>
 </tr>
 <tr>
  <td height="25" align="center" width="260">日期</td>
  <td colspan="6" height="25" align="center">引擎</td>
 </tr>
 <tr>
  [showlog]
 </tr>
</table>
[copy]
</body>
</html>’;
}
function pagehtml()//============显示模板,标签代替显示内容!
{
 return  ’<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>[title]蜘蛛爬行分析 - [htmltitle]</title>
<style>
<!--
td { 
font-size: 12px ;
height:18px;
}
.c{
text-align:center;
 }
.pl{
padding-left:15px;
}
tr td p a:link,tr td p a:visited{
color:#000000;
text-decoration:none;
}
-->
</style>
</head>
<body>
<table border="1" width="100%" id="table1" cellspacing="0" cellpadding="0" style="border-collapse: collapse" height="74">
 <tr>
 <td><a href="iis.php">返回日志目录</a> | <a href="http://www.dj965.com">dj965</a>
  <td colspan="3" bgcolor="#808080" height="30" align="center">
  <font color="#FFFFFF" size="3"><b>[title]蜘蛛爬行分析</b></font></td>
 </tr>
  <tr>
  <td colspan="4" height="20" align="center">本日志[title]蜘蛛共爬行 <b>[count]</b> 次,其中正常 <b>[t]</b> 个,死链 <b><font color="red">[y]</font></b> 个,缓存 <b>[h]</b> 个</td>
 </tr>
 <tr>
  <td align="center" width="200px;"><font color="#FF0000">时间</font></td>
  <td align="center" width="150px;"><font color="#FF0000">蜘蛛IP</font></td>
  <td align="center"><font color="#FF0000">被爬URL</font></td>
  <td align="center" width="100px;"><font color="#FF0000">爬行结果</font></td>
 </tr>
 [show]
 <tr>
  [page]
 </tr>
</table>
[copy]
</body>
</html>’;
}
function mycopy()
{
 return ’<table border="1" width="100%" id="table2" cellspacing="0" cellpadding="0" style="border-collapse: collapse" height="402">
 <tr>
  <td height="35" bgcolor="#C0C0C0" align="center"><b>注备说明</b></td>
 </tr>
 <tr>
  <td height="170">
  <p> 正常:表示该面页蜘蛛访问正常,并已经下载。爬行状态返回200。</p>
  <p> 死链:表示蜘蛛访问的面页不存在或链接错误,爬行状态返回404。</p>
  <p> 缓存:表示蜘蛛之前已经爬过的面页且该面页未更新过,蜘蛛缓存区已存在该文件,不再下载该面页内容。爬行状态返回304。</p>
  <p> 注意:蜘蛛爬过的面页不一定会放出来,因为蜘蛛爬回去的数据须经过引擎规则筛选后才会放出来,至于详细请查看引擎收录帮助。</p>
  </td>
 </tr>
 <tr>
  <td>
  <p> 程序名称:<a target="_blank" href="http://tarr.cn/?p=23">牛仔IIS日志蜘蛛爬行记录分析器 - 茄咧啡修改版</a> 修改者:<a href="http://www.tarr.cn/" target="_blank">茄咧啡</a></p> 
  <p>*******************************************************</p>
  <p> 原程序名称:<a target="_blank" href="http://www.niuzi.com/">牛仔IIS日志蜘蛛爬行记录分析器</a></p> 
  <p> 原作者:牛仔</p>
  <p> QQ:172379201</p>
  <p> Email:17gd$163.com ($转换@)</p>
  <p> 注意:本程序只供大家学习使用,请勿用作商业用途。</p>
 </tr>
</table>’;
}
?>

时间: 2024-09-16 00:00:23

IIS日志分析搜索引擎爬虫记录程序的相关文章

php IIS日志分析搜索引擎爬虫记录程序第1/2页_php实例

使用注意: 修改iis.php文件中iis日志的绝对路径 例如:$folder="c:/windows/system32/logfiles/站点日志目录/"; //后面记得一定要带斜杠(/). ( 用虚拟空间的不懂查看你的站点绝对路径?上传个探针查看! 直接查看法:http://站点域名/iis.php 本地查看法:把日志下载到本地 http://127.0.0.1/iis.php ) 注意: //站点日志目录,注意该目录必须要有站点用户读取权限! //如果把日志下载到本地请修改143

关于网站IIS日志分析搜索引擎爬虫说明

 iis默认的日志文件在C:\WINDOWS\system32\LogFiles中,下面是Seoer惜缘的服务器日志,通过查看,就可以了解搜索引擎蜘蛛爬行经过,如: 2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+ (+http://www.baidu.com/search/spider.htm) 200 0 64 1.203.171.226.1

PHP版iis日志分析程序

说明: 将日志文件放在网站根目录,并改名为log.log.演示:http://www.jzxue.com/tools/iislog/ http://www.jzxue.com/tools/iislog/demo.gif <?php /******************************************************* *功能:iis日志分析,分析出访问IP总数,搜索引擎抓取次数 *说明: *       将日志文件放在网站根目录,并改名为log.log. *演示:htt

IIS日志分析及IIS日志分析软件下载

IIS日志分析是我们asp.net程序员必须了解知识,因为我们开发的网站都是基于IIS服务器.当网站访问缓慢时,除了检查程序代码和优化程序代码外,IIS日志就是我们寻找网站缓慢另一个途径! IIS日志文件存放位置,一般默认位置是:(C:/WINDOWS/system32/LogFiles);在IIS信息服务窗口中,点击要设置的网站的属性,在"网页"选项卡上可以看到"启动日志记录 "项,可以设置日志的保存位置.日志的记录格式等等,虚拟主机用户可以通过空间商提 供的后台

CYQ.IISLogViewer 一款IIS 日志分析工具 V1.0 发布[提供源码]

说几句:      昨天在 秋色开源团队  群里和网友聊天,有网友提到了一个概念,做站需要知道的:分析IIS日志.      然后上网找了一下资料看了下,可是 秋色园 寄放在人家虚拟目录的子目录中,根本没有IIS日志可言,于是昨晚就直接把秋色园移往新购买的VPS,正式搬到传说中的赌城"拉斯维加斯"去了,中间出了不少问题,折腾到夜里4点.      于是目前 秋色园 所在的地址就是"拉斯维加斯"了,不过数据库仍是用的Access. 下面进正题,于是自己跑IIS看了一下

合格的SEO应该会真正的IIS日志分析

在我们的优化之路中有一些问题一直困扰着我们,例如:我们发的外链是否起到效果?我们买的空间是否能够稳定?蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?而这些问题其实我们可以通过我们的服务器IIS日志可以简单的分析出来,作为一个合格的SEO,真正的会分析IIS日志才可以而不是简单的去看状态码,在这提醒一下大家买空间的时候一定要买能够下载IIS日志的,不能下载的买都不要买,下面给大家介绍几点通过IIS日志分析出的网站问题.​ 一.IIS日志的重要

iis日志分析工具下载 [IIS日志分析工具]

下载|iis|日志分析 IIS日志分析工具 可以考虑使用开源的awstats来分析 下面是我写的安装手记,希望对你能有参考 AWStats在IIS6.0下的安装手记 什么是AWStats? AWStats是在Sourceforge上发展很快的一个基于Perl的WEB日志分析工具.日志统计系统在站点的用户行为分析中扮演了重要的角色,尤其是对于来自搜索引擎的关键词访问统计:是很有效的用户行为分析数据来源.随着互联网多年的发展,WEB日志统计工具已经越来越成熟,功能也越来越丰富.其中有很多是开放源代码

IIS日志分析工具(点格IIS日志分析器)使用图文教程

最近服务器经常遭受hacker侵扰.入侵者技术比较高明,会删除IIS日志文件以抹去痕迹,这时可以到事件查看器看来自W3SVC的警告信息,往往能找到一些线索.当然,对于访问量特别大的Web服务器,仅靠人工分析几乎是不可能的--数据太多了!可以借助第三方日志分析工具,此处仅仅介绍一款名叫点格IIS日志分析器.它是一个免费的日志分析工具,可以分析IIS 4/5.Apache和其他日志文件.该软件简单易用 软件名称:点格IIS日志分析器2.0绿色版 1:运行IISLogViewer.exe,启动IIS日

网站SEO优化、IIS日志分析工具 IISLogViewer V2.0 发布

PS:为了有个响亮些的名字,软件中文名更名为:点格网站日志分析器   本次发布IIS日志分析工具[IISLogViewer] V2.0版本.   下面单刀直入,看下 IIS日志分析工具 V2.0 版本所带来新的教程:   1:运行IISLogViewer.exe,启动IIS日志分析工具,界面如下图:     2:可以选择单个IIS日志文件分析或整个站点文件夹进行分析,这里点击"批量文件夹",选择要分析的IIS日志文件目录,如下图:     2-1:选择好要分析的IIS日志文件或文件夹后