关于python采集的问题。

问题描述

关于python采集的问题。

为啥采集之后变成下面这样了、采集url:https://www.google.com.hk/?gws_rd=ssl#safe=strict&q=1

<!doctype html>

Google(function(){window.google={kEI:'QBvHVMODHIbx8gWir4KACQ',kEXPI:'4011559,4017578,4020346,4020562,4020726,4021587,4021598,4021965,4025828,4025891,4026005,4026109,4026111,4026330,4026376,4028127,4028129,4028398,4028468,4028490,4028508,8300096,8300111,8500393,8500852,8501118,10200083,10200905',authuser:0,kSID:'QBvHVMODHIbx8gWir4KACQ'};google.kHL='zh-HK';})();(function(){google.lc=[];google.li=0;google.getEI=function(a){for(var b;a&amp;&amp;(!a.getAttribute||!(b=a.getAttribute(&quot;eid&quot;)));)a=a.parentNode;return b||google.kEI};google.https=function(){return&quot;https:&quot;==window.location.protocol};google.ml=function(){};google.time=function(){return(new Date).getTime()};google.log=function(a,b,d,e,k){var c=new Image,h=google.lc,f=google.li,g=&quot;&quot;,l=google.ls||&quot;&quot;;c.onerror=c.onload=c.onabort=function(){delete h[f]};h[f]=c;d||-1!=b.search(&quot;&amp;ei=&quot;)||(e=google.getEI(e),g=&quot;&amp;ei=&quot;+e,e!=google.kEI&amp;&amp;(g+=&quot;&amp;lei=&quot;+google.kEI));a=d||&quot;/&quot;+(k||&quot;gen_204&quot;)+&quot;?atyp=i&amp;ct=&quot;+a+&quot;&amp;cad=&quot;+b+g+l+&quot;&amp;zx=&quot;+google.time();/^http:/i.test(a)&amp;&amp;google.https()?(google.ml(Error(&quot;a&quot;),!1,{src:a,glmm:1}),delete h[f]):(c.src=a,google.li=f+1)};google.y={};google.x=function(a,b){google.y[a.id]=[a,b];return!1};google.load=function(a,b,d){google.x({id:a+m++},function(){google.load(a,b,d)})};var m=0;})();google.kCSI={};var _gjwl=location;function _gjuc(){var a=_gjwl.href.indexOf(&quot;#&quot;);if(0&lt;=a&amp;&amp;(a=_gjwl.href.substring(a),0&lt;a.indexOf(&quot;&amp;q=&quot;)||0&lt;=a.indexOf(&quot;#q=&quot;))&amp;&amp;(a=a.substring(1),-1==a.indexOf(&quot;#&quot;))){for(var d=0;d&lt;a.length;){var b=d;&quot;&amp;&quot;==a.charAt(b)&amp;&amp;++b;var c=a.indexOf(&quot;&amp;&quot;,b);-1==c&amp;&amp;(c=a.length);b=a.substring(b,c);if(0==b.indexOf(&quot;fp=&quot;))a=a.substring(0,d)+a.substring(c,a.length),c=d;else if(&quot;cad=h&quot;==b)return 0;d=c}_gjwl.href=&quot;/search?&quot;+a+&quot;&amp;cad=h&quot;;return 1}return 0}<br>
汉字完全没弄下来唉。。。采集gfsoso 199897.com 也是这样、</p>

解决方案

Google很多都是ajax异步请求,所以你拿到的数据都是返回的页面内容。
而搜索结果是Javascript异步后续插入的。

你这种情况需要考虑用selenium的webdriver来加载页面,然后获取页面加载结束后再扒取页面内容

时间: 2024-09-08 09:50:10

关于python采集的问题。的相关文章

python采集百度百科的方法

  本文实例讲述了python采集百度百科的方法.分享给大家供大家参考.具体如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:get_baike.py import urllib2,re import sys def getHtml(url,ti

python采集博客中上传的QQ截图文件_python

哎,以前写博文的时候没注意,有些图片用QQ来截取,获得的图片文件名都是类似于QQ截图20120926174732-300×15.png的形式,昨天用ftp备份网站文件的时候发现,中文名在flashfxp里面显示的是乱码的,看起来好难受,所以写了一个python小脚本,爬取整个网站,然后获取每个文章页面的图片名,并判断如果是类似于QQ截图20120926174732-300×15.png的形式就输出并将该图片地址和对应的文章地址保存在文件中,然后通过该文件来逐个修改. 好了,下面是程序代码: im

python 采集中文乱码问题的完美解决方法_python

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录 1. 在正常情况下..可以用 import chardet thischarset = chardet.detect(strs)["encoding"] 来获取该文件或页面的编码方式 或直接抓取页面的charset = xxxx 来获取 2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理. st

Python采集腾讯新闻实例_python

目标是把腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称.时间.来源以及正文. 接下来分解目标,一步一步地做. 步骤1:将主页上所有链接爬取出来,写到文件里. python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能. 复制代码 代码如下: def getHtml(url):      page = urllib.urlopen(url)      html = page.read()      page.close()      return html 我们都知道htm

python实现的一个火车票转让信息采集器_python

好吧,我承认我是对晚上看到一张合适的票转让但打过电话去说已经被搞走了这件事情感到蛋疼.直接上文件吧. #coding: utf-8 ''' 春运查询火车票转让信息 Author: piglei2007@gmail.com Date: 2011.01.25 ''' import re import os import time import urlparse import datetime import traceback import urllib2 import socket socket.s

python采用requests库模拟登录和抓取数据的简单示例_python

如果你还在为python的各种urllib和urlibs,cookielib 头疼,或者还还在为python模拟登录和抓取数据而抓狂,那么来看看我们推荐的requests,python采集数据模拟登录必备利器! 这也是python推荐的HTTP客户端库: 本文就以一个模拟登录的例子来加以说明,至于采集大家就请自行发挥吧. 代码很简单,主要是展现python的requests库的简单至极,代码如下: s = requests.session() data = {'user':'用户名','pass

1个掷硬币问题,4个Python解法:读书笔记

首发于知乎,再发到阿里社区看看人气如何 关键词:统计,概率,机器学习,Pandas, Numpy, sympy scipy 预计阅读时间-10分钟 我在学习机器学习算法和玩Kaggle 比赛时候,不断地发现需要重新回顾概率.统计.矩阵.微积分等知识.如果按照机器学习的标准衡量自我水平,这些知识都需要重新梳理一遍. 网上或许有各种各样知识片断,却较难找到一本书将概率,统计.矩阵.微积分公式和Python结合起来. 要么是讲的比较浅显,要么跨度比较大. 最近看到一本书,恰好把上面的问题解决了.着重讲

Kaggle HousePrice : LB 0.11666(前15%), 用搭积木的方式(2.实践-特征工程部分)

Kaggle HousePrice : LB 0.11666(前15%), 用搭积木的方式(2.实践-特征工程部分) 王勇 14 天前 关键词: 机器学习,Kaggle 比赛,特征工程,pandas Pipe, sklearn Pipeline,刷法大法, 自动化 从上篇文章发布到我这篇文章,一共收到了78个赞.谢谢各位看官捧场. 本文正文部分阅读预计要花30分钟左右.假定读者已经对Kaggle, Python, Pandas,统计有一定了解.后面附相关代码,阅读需要时间因人而异. 这两天在忙着

python实现自动登录人人网并采集信息的方法

  本文实例讲述了python实现自动登录人人网并采集信息的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68