统计搜索引擎的每小时抓取量及首页抓取量(第一版)

 

下一版,要改进为在一个AWK内统计出所有数据。

现在要六次循环,效率太差,暂时跑起来先。。

#/bin/sh

log_path="xxx.log"
log_self="xxx.log"
key_search=("http://www.baidu.com/search/spider.html" "http://www.google.com/bot.html"  "http://www.haosou.com/help")

time_inter_minute=60
bool_sendmail="true"
last_time=`date "-d -${time_inter_minute} minute" '+%d/%b/%G:%H:%M:%S'`
now_time=`date '+%d/%b/%G:%H:%M:%S'`
now_time_str="[${now_time}"
last_time_str="[${last_time}"

echo > $log_self
echo "start time: " $last_time >> $log_self
echo "end time: " $now_time >> $log_self

function searchSum()
{
  shell_out=`awk -v a=$1 -v b=$2 '{if ($4 > a && $4 < b) print}' $3|grep $4|wc -l`
  echo $shell_out
}

function searchRootSum()
{
  shell_root_out=`awk -v a=$1 -v b=$2 '{if ($4 > a && $4 < b && $7 == "/") print}' $3|grep $4|wc -l`
  echo $shell_root_out
}
for search_robot in ${key_search[@]}
do
    echo $search_robot >> $log_self
    count=`searchSum $last_time_str $now_time_str $log_path $search_robot`
    echo 全站抓取数量:$count >> $log_self
    countRoot=`searchRootSum $last_time_str $now_time_str $log_path $search_robot`
    echo 首页抓取数量:$countRoot >> $log_self
    if [ $count -eq 0 ];then
    mutt -s "xxx搜索引擎抓取统计"  x@x.com < $log_self
    fi
done

if [ $bool_sendmail == "true" ];then
    echo $bool_sendmail
fi
mutt -s "xxx搜索引擎抓取统计" xx@xx.com < $log_self

 

时间: 2024-10-01 21:49:57

统计搜索引擎的每小时抓取量及首页抓取量(第一版)的相关文章

php-curl抓取淘宝首页抓取不到。

问题描述 curl抓取淘宝首页抓取不到. 列表页面"> 这是我的代码,抓取淘宝一直抓取不到. 解决方案 curl得到的内容和你浏览器查看源代码后得到的一样,js动态添加的内容和ajax动态加载的无法获取 解决方案二: 数据都是js 动态生成的,你获取的只是代码. 解决方案三: 淘宝应该有防抓取设置 一般是通过判断请求来源来防止抓取 你可以在浏览器中访问时抓一下包 分析一下它的请求头数据 模拟一下啥 解决方案四: 页面是动态生成的,你没办法直接拿到内容,

麻烦大家给你网络抓取程序 需要被抓取网页的标题内容来源存入数据库

问题描述 麻烦大家给你网络抓取程序需要被抓取网页的标题内容来源存入SQL2000数据库 解决方案 解决方案二:在网上搜网络爬虫或者网络机器人,解析网页的内容用apache的HttpClient解决方案三:htmlParse

php通过curl单独抓取网页可以,抓取多个就会出错

问题描述 php通过curl单独抓取网页可以,抓取多个就会出错 使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722可行,但是如果抓取相同类型的一系列网站就会出错,将他们放在数组 $linkList中,分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722,http://jobs.hubu.e

C# webbrowser 登陆淘宝取Cookie然后用httprequest取数据

问题描述 C#webbrowser登陆淘宝取Cookie然后用httprequest取数据如题谁做过吗?求帮助 解决方案 解决方案二:知道的麻烦加下Q714217821

datagridview 里面新增一列。该列的值是取自其他某列取首位得来的。请问怎么实现

问题描述 datagridview 里面新增一列.该列的值是取自其他某列取首位得来的.请问怎么实现 datagridview 里面新增一列.该列的值是取自其他某列取首位得来的.请问怎么实现 解决方案 那你就找那一列对应单元格的值就行了,grid.Rows[index].Cells[某列].Value 解决方案二: 直接获取那一列的值,,你说的不是很清楚

link中如果是任意取了数组之后再任意取数,为什么只能取第一个?

问题描述 link中如果是任意取了数组之后再任意取数,为什么只能取第一个? link中如果是任意取了数组之后再任意取数,为什么只能取第一个? 解决方案 int[][] arrs = new int[][] { new int[] {1,2,3}, new int[] {4,5,6}, new int[] {7,8,9}, new int[] {10,11,12}}; var query = arrs.OrderBy(x => Guid.NewGuid()).Take(3).Select(x =>

安卓-我要从数据库里面取东西,但是发现取不出来

问题描述 我要从数据库里面取东西,但是发现取不出来 解决方案 目测bookstore.db,你写成了逗号.

唯品会Q4移动端订单量约占总订单量的5%

[http://www.aliyun.com/zixun/aggregation/32866.html">亿邦动力网讯]2月25日消息,亿邦动力网从唯品会最新发布的2012财年第四季度未经审计财报获悉,唯品会目前来自移动端的销售订单量约占总订单量的5%,唯品会董事长兼CEO沈亚表示,移动端未来会实现更高水平,闪购模式尤其会有很大发展. 按照唯品会财报显示的第四季度总订单数量880万份计算,唯品会第四季度来自移动端的订单量约能达到44万份. 据了解,唯品会旗下目前主要有4个移动产品,分别是唯

搜索引擎运营商和广告主片面追求高流量和高点击量

据中国市场研究集团的最新调查结果显示,百度搜索中有不少的内容都是和MP3相关,这导致百度虽然搜索量一直领先,但非商业流量过大.同时目前无效点击.点击欺诈等问题阻碍着搜索行业的进一步发展,究其原因还是由于搜索引擎运营商和广告主双方均片面追求高流量和高点击量.而随着广大站长建站需求的日益增强,数据统计工具已经成为建设及运营网站重要的工具之一.据CNNIC最新统计报告,国内的网站总数量是287.8万.而国内知名的第三方统计公司CNZZ进行服务创新,推出从"站长统计"到"全景统计&q