python-Python使用urllib2 urlopen打开网页不正确

问题描述

Python使用urllib2 urlopen打开网页不正确
 #!/usr/bin/python
# -*- coding: utf-8 -*-

import urllib;
import urllib2;
import os;
import sys;
import shutil;

def searchVT():
    VTMainUrl = 'https://www.virustotal.com/en/#search';
    headers = {
    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'content-type':'application/x-www-form-urlencode',
    'referer':'https://www.virustotal.com/',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.101 Safari/537.36'};
    postDict = {'query' : '18092AC0F4F694C60762DC98C9F66BC3',};
    postData = urllib.urlencode(postDict);
    req = urllib2.Request(VTMainUrl, postData, headers);
    try:
        respHtml = urllib2.urlopen(req).read();
    except urllib2.URLError,e:
        if hasattr(e,"reason"):
            print "Failed to reach the server"
            print "The reason:",e.reason
        elif hasattr(e,"code"):
            print "The server couldn't fulfill the request"
            print "Error code:",e.code
            print "Return content:",e.read()
        else:
            pass  #其他异常的处理
    file_object = open('thefile.txt', 'w')
    file_object.write(respHtml)
    file_object.close( )
    print respHtml;
    return respHtml;       

if __name__=="__main__":
    searchVT();

最近使用urllib2 urlopen尝试打开VT网页并进行使用MD5查询,但是不知道为什么返回的网页为空,求大神赐教~

解决方案

怀疑页面是异步方式加载的,所以请求的时候直接返回空页面了,内容是后面在ajax加载的。

时间: 2024-08-25 15:44:22

python-Python使用urllib2 urlopen打开网页不正确的相关文章

python 中的urllib2.urlopen()方法

问题描述 python 中的urllib2.urlopen()方法 python中,urllib2中的urlopen()方法可以这样用: response=urllib2.urlopen("http://www.baidu.com") html=response.read() 也可以这样用:先创建一个Request对象 request=urllib2.Request("http://www.baidu.com") response=urllib2.urlopen(r

Python urllib、urllib2、httplib抓取网页代码实例

  这篇文章主要介绍了Python urllib.urllib2.httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下 使用urllib2,太强大了 试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了 包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 ? 1 2 3 4 5 6 7 8 9

python打开网页和暂停实例_python

本文实例讲述了python打开网页和暂停的方法.分享给大家供大家参考. 具体实现代码如下: import webbrowser import os webbrowser.open_new_tab("http://www.jb51.net/") os.system("pause")#运行windows的pause 命令,等待用户输入 i = 0 while i<100: if downloadUrlList == None: break webbrowser.o

python设置urllib2.urlopen超时时间实例

python 2.6之前的版本:  代码如下 复制代码 import urllib2 import socket socket.setdefaulttimeout(5) urllib2.urlopen(url).read()   python 2.6之后的版本:  代码如下 复制代码 urllib2.urlopen(url, timeout=5).read()  

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

        本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识.         感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片         下面这部分Selenium代码的主要功能是:        

零基础写python爬虫之urllib2使用指南_python

前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节. 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy. 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理. 新建test14来实现一个简单的代理Demo: 复制代码 代码如下: import urllib2  enable_proxy = True  proxy_handler = urllib2.ProxyHandler({"http&

如何用python 2和python 3伪装浏览器爬取网页

python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下载python2和python3中都是如何来模拟浏览器来跳过屏蔽进行抓取的. 最基础的抓取: #! /usr/bin/env python # -*- coding=utf-8 -*- # @Author pythontab import urllib.request url = "http://w

Python标准库urllib2的一些使用细节总结_python

Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库.这里总结了一些 urllib2 的使用细节. 1.Proxy 的设置 2.Timeout 设置 3.在 HTTP Request 中加入特定的 Header 4.Redirect 5.Cookie 6.使用 HTTP 的 PUT 和 DELETE 方法 7.得到 HTTP 的返回码 8.Debug Log Proxy 的设置 urllib2 默认会使用

python中使用urllib2获取http请求状态码的代码例子_python

采集内容常需要得到网页返回的验证码做进一步处理 下面代码是用python写的用来获取网页http状态码的脚本 #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:states_code.py import urllib2 url = 'http://www.jb51.net/' response = None try: response = urllib2.urlopen(url,timeout=5) excep