python 爬取网站，没有正确的返回值？

问题描述

python 爬取网站，没有正确的返回值？

 #coding=utf-8

import sys
import time
import requests
#from lxml import etree
from PIL import Image
reload(sys)
sys.setdefaultencoding('utf-8')
time=int(time.time())

session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Host':'218.22.14.70:8088'}
#cookies={'JSESSIONID':'23323B4638EBB7CF3D0272A51AC5A7C3', 'clientlanguage':'zh_CN'}
#start_url='http://218.22.14.70:8088/SMEDS/repository.jspx'
#html=session.get(start_url,headers=headers)
captchaUrl='http://218.22.14.70:8088/SMEDS/validateCode.jspx?type=1&id='+str(time)
print captchaUrl
html1=session.get(captchaUrl,headers=headers)
captcha=html1.content
print type(captcha)
with open('captcha.jpg', "wb") as output:
           output.write(captcha)
Image.open('captcha.jpg').show()
captcha = raw_input("enter captcha：")
url1='http://218.22.14.70:8088/SMEDS/repository.jspx?checkNo=40&searchType=CX&entName=安徽&pageNo=&textfield2='
html1=session.get(url1,headers=headers,cookies=html1.cookies)
info=(html1.content)
print type(info),info
print html1.headers

没有查询结果，求解。。。

时间： 2024-11-02 20:32:01

python 爬取网站，没有正确的返回值？的相关文章

python爬取网站数据保存使用的方法_python

编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了.问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行扩充.中文的话有GB系列.可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广.但是具体存储到计算机上,并不用这种编码,可以说它起着一个中间人的作用.你可以再把Unicode编码(encode)为UTF-8,或者GB,再存储到计算机

浅谈Python爬取网页的编码处理_python

背景中秋的时候一个朋友给我发了一封邮件说他在爬链家的时候发现网页返回的代码都是乱码让我帮他参谋参谋(中秋加班真是敬业= =)其实这个问题我很早就遇到过之前在爬小说的时候稍微看了一下不过没当回事其实这个问题就是对编码的理解不到位导致的. 问题很普通的一个爬虫代码代码是这样的 # ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://j

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)_AJAX相关

在学习python的时候,一定会遇到网站内容是通过 ajax动态请求.异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看本文内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一获取淘宝评论时,ajax请求链接(url) 二获取该ajax请求返回的json数据三使用python解析json数据

python爬取页面数据错误，连续爬很多页数。我主要改变的是post里面的参数pageno

问题描述 python爬取页面数据错误,连续爬很多页数.我主要改变的是post里面的参数pageno 爬数据的时候,比如有800页数据要爬,爬到400多页会出现返回400错误,没有数据.但是如果将程序从400页到800再重新爬,又不会报错. 求解决方法

python爬这个网站，需要的信息不在源代码中，怎么做

问题描述 python爬这个网站,需要的信息不在源代码中,怎么做 http://www.changtu.com/chepiao/nanjingshi-zhenjiangshi.html?day=4 想抓汽车车次的信息,在审查元素中能找到,但在源码中找不到,新手不太会抓这种网页,求论坛的大神指点一下: 1.看了其他的帖子什么的说是要找到相应的包,得到真正包含这些信息的地址,但是我不会找,可否告知这个地址是什么,怎么找到的. 2.比如说这个南京到镇江的班次,有两页,那么翻页要怎么翻?是访问链接上加上

Python爬取APP下载链接的实现方法_python

首先是准备工作 Python 2.7.11:下载python Pycharm:下载Pycharm 其中python2和python3目前同步发行,我这里使用的是python2作为环境.Pycharm是一款比较高效的Python IDE,但是需要付费. 实现的基本思路首先我们的目标网站:安卓市场点击[应用],进入我们的关键页面: 跳转到应用界面后我们需要关注三个地方,下图红色方框标出: 首先关注地址栏的URL,再关注免费下载按钮,然后关注底端的翻页选项.点击"免费下载"按钮就会立即下

反爬虫-菜鸟求助，大神请进：python爬取某东评论数据遇到的问题

问题描述菜鸟求助,大神请进:python爬取某东评论数据遇到的问题 python爬取京东评论数据,爬10页的评论没问题,后面的评论就不断重复,到底是什么原因? 解决方案先看是不是服务器返回的内容然后就是你请求的参数有问题所有重复请求解决方案二: 应该是url没去重吧解决方案三: 最近看到一个csdn的博客专门讲如何写电商爬虫的,地址是:http://blog.csdn.net/youmumzcs/article/details/51373830,楼主可以参考

利用Python爬取可用的代理IP_python

前言就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/.在使用的时候发现很多IP都用不了. 所以用Python写了个脚本,该脚本可以把能用的代理IP检测出来. 脚本如下: #encoding=utf8 import urllib2 from bs4 import BeautifulSoup import urllib import socket User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv

微博爬虫-求助。用python爬取微博用户的粉丝列表及粉丝的粉丝列表

问题描述求助.用python爬取微博用户的粉丝列表及粉丝的粉丝列表急需一份能爬取微博用户的粉丝列表及对应粉丝的粉丝列表搭建一个实验平台,由于自己编程能力太弱,所以希望好心人能给一份相应的python代码(其他语言编写的能运行的也可),在线等,急求! 解决方案 Python:获取新浪微博用户的收听列表和粉丝列表微博粉丝解决方案二: python爬取糗百模式不变改一下正则就可以也可以用sqllite保存 .正则自己网上看一下就回了解决方案三: urllib请求页面获取response