python apache log 获取百度关键词搜索来源

python apache log 获取百度关键词搜索来源
#!/usr/bin/python
# -#- coding: utf-8 -*-

import os, base64, re, fnmatch, imghdr, shutil, pprint, urlparse

log = "seo教程.log"
reader = open(log, 'r')
config =  {'s0':{'h':'www.google.com.hk','q':'q'},'s1':{'h':'www.baidu.com','q':'wd|word'},'s3':{'h':'www.soso.com','q':'w'}}
def get_q(x):
    for i,j in config.items():
        str_q = j['q'].split('|')
        if x.netloc == j['h']:
            return str_q

for line in reader.xreadlines() :
    p = re.compile('.*"get (/seo/t.php教程?.*) http/1.1".*', re.ignorecase)
    m = p.match(line)
    if m :
        s_t = m.group(1)
        s_t_u = urlparse.urlparse(s_t)
       
        s_t_u_qs = urlparse.parse_qs(s_t_u.query,true)
        #print s_t_u_qs['ref'][0]
        ref = urlparse.urlparse(str(s_t_u_qs['ref'][0]))
       
        ref_qs = urlparse.parse_qs(ref.query,true)
        #print ref
        #print get_q(ref)
        for k in get_q(ref):
            if k in ref_qs:
                print ref.netloc+":::"+ref_qs[k][0]
reader.close()

时间: 2024-10-27 02:21:54

python apache log 获取百度关键词搜索来源的相关文章

百度关键词搜索排名再遇纠纷 被企业追加起诉

不少网民找寻想要浏览的网页时,经常会求助于搜索引擎网站,输入关键词进行搜索.因此,越来越多的商家也开始关注关键词的搜索结果,希望自己的网页链接能够尽量靠前.在"你争我抢"的过程中,难免会产生一些问题甚至纠纷,最终还闹上了法庭-- 近日,市第一中级人民法院开庭审理了一起商标侵权纠纷.两家公司因为百度关键词搜索结果的排名问题,对簿公堂. 庭审结束后没多久,原告又将百度公司追加为第二被告.昨天,晨报记者就这起状告百度的案件进行了调查. 原告不满 花10多万做推广,位置却遭抢 这次庭审,原告是

【网络爬虫】给关键字获取百度知道搜索数据的网络爬虫

转载请注明出处http://blog.csdn.net/qq_26525215 本文源自[大学之旅_谙忆的博客] 简单的通过关键字爬出百度知道的一些搜索数据. 例如问题提问时间答案文本答案时间点赞数拍砖数回答人回答人级别搜索的关键字等. 答案可以有多个每个问题有多个答案应都保存.保存数据在MySql中. 在这里需要用到一个牛人的爬虫框架 WebMagic 网址http://webmagic.io/docs/zh/ 我用的是IEDA工具建立的是Maven项目. 要搞爬虫一些基础的学习是不可少的比如

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

        前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作.希望文章对你有所帮助~ 源代码 # coding=utf-8 """ Created on 2015-09-04 @author: Eastmount """ i

1个月如何把网站关键字做到百度关键词搜索第一

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 到今天为止,关键词"广西网站建设"在百度搜索上的自然排名,网者网络保持第一位已经1周多,之前也在百度首页徘徊了几天,也算小有成果,独乐乐不如众乐乐,特地过来和站长朋友们一起分享.本人做网站建设这行已经2年多,之前一直都是在公司里给客户做网站,但却从来没有一个属于自己的网站.9月份我终于辞去了工作,和朋友组建了个网站建设工作

PHP获取百度上的高质量妹子图

<? $p=$_GET['p']; if($p==null)$p=1; $page=$p*20; $url='http://m.baidu.com/img?tn=bdjsonliulan&pu=sz%401320_2001&bd_page_type=1&tag1=%E7%BE%8E%E5%A5%B3&realword=%E7%BE%8E%E5%A5%B3&word=%E7%BE%8E%E5%A5%B3&pn='.$page.'&rn=20';

jquery ajax获取json数据实现百度的搜索提示

挺炫的一个效果,百度和谷歌好像已实现好多年了,我以为在网上能轻易找到代码来实现这个效果.真正遇到这个需求,发现还真找不到.于是自己动手写这个效果,由于我是把效果整合到我的整套框架里,所以没有进行单独的封装. 需求: 实现带提示的input框,类似百度搜索,有改动的时候去获取常用关键词,数据来源于系统数据库,支持鼠标选择或键盘选择 思路: 框架一贯思路,通过class作为监听入口,通过data作为数据传递: 通过监听input和propertychange事件实现实时的改动监听,input是主流,

python实现百度关键词排名查询_python

就是一个简单的python查询百度关键词排名的函数,以下是一些简介:1.UA随机2.操作简单方便,直接getRank(关键词,域名)就可以了3.编码转化.编码方面应该没啥问题了.4.结果丰富.不仅有排名,还有搜索结果的title,URL,快照时间,符合SEO需求5.拿来做个软件或者自己用都很方便. 功能是单线程实现,速度慢,大家可以参考修改成自己需要的. 复制代码 代码如下: #coding=utf-8 import requestsimport BeautifulSoupimport reim

python中使用百度音乐搜索的api下载指定歌曲的lrc歌词_python

这次这个真的是干货哦,昨晚弄了半晚上,,,,从8点吃完饭就开始写,一直到了快12点才弄好,,,新手,伤不起呀.... 先简单的说下吧,百度提供了一个音乐搜索的api,你想百度请求类似于 http://box.zhangmen.baidu.com/x?op=12&count=1&title=最佳损友$$陈奕迅$$$$ 的地址,百度会给你返回一段xml,如下所示 This XML file does not appear to have any style information associ

jQuery搜索框效果实现代码(百度关键词联想)_jquery

可以实现关键词联想的,搜索框:集合了百度,谷歌,搜狗,360,腾讯等多家搜索 search.html的代码: <!doctype html> <html> <head> <title>搜索框例子</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script type="t