用python爬虫登陆网页时网页的重定向问题

问题描述

用python爬虫登陆网页时网页的重定向问题

用python爬虫登陆一个网站 用urlopen打开后 打印获得的内容发现返回的一直是登陆界面
检查了cookie,表单内容的编码都是正确的 在网页上登陆后抓包发现返回的是一个302重定向
这个重定向是导致返回内容一直是登陆界面的原因吗?如果是的话应该怎么处理?

解决方案

注意cookie的问题,参考:http://lilydjwg.is-programmer.com/posts/22121.html
http://iyuan.iteye.com/blog/1749811

解决方案二:

获取重定向地址,然后接着urlopen

解决方案三:

用手机浏览器的user-agent去试试。说不定是可以的。

时间: 2024-09-12 15:16:47

用python爬虫登陆网页时网页的重定向问题的相关文章

爬虫-用python模拟登陆csdn时参数lt要如何获得?

问题描述 用python模拟登陆csdn时参数lt要如何获得? 网上看到代码是用正则表达式,可是我打印出来的网页代码里没有相关的内容,运行 代码用findall返回的也是一个空列表..请问应该在哪里得到lt参数? 解决方案 可能是js运行时动态生成. 解决方案二: 你把你登录时候的lt参数值复制下来,填充到你的程序里面试试.

python爬虫抓不到网页

问题描述 python爬虫抓不到网页 抓取的时候总会出现这样的错误,IOError: [Errno socket error] [Errno 10060],求告知怎么才能解决啊. 解决方案 先在第一页捉取网页链接,存放在数据库,然后一个个从数据库读取来打开下一个网页. 解决方案二: 网络超时等错误,看上去是网络请求有问题了 或者被网站ban了 解决方案三: 造成10060(网络超时)的原因: 1.请求过于频繁,被服务器认为DDOS攻击而拒绝响应. 2.网络状态不好. 3.系统繁忙处理不过来(主要

httpclient-java 利用 httpClient 模拟登陆网站时,网站重定向,我该怎么进入后继的网页啊!

问题描述 java 利用 httpClient 模拟登陆网站时,网站重定向,我该怎么进入后继的网页啊! 我用的是httpclient4.3.6 .我模拟登陆我们学校的网站,获取了cookies,但是我用httpwatch看 有重定向的问题,我不知道怎么进入后面的网页!求解!我贴上代码,求代码详解,谢谢!!!小弟初学java 现需要做这个操作,很是艰难呀!感激不尽! 解决方案 public class Test { public static void main(String[] args) th

python模拟登陆网站时一些随机参数是如何生成的?

问题描述 python模拟登陆网站时一些随机参数是如何生成的? 比如登陆新浪微博的时候有survertime nonce这样的随机参数,还有一些网站 会有一些不固定的一大串的参数,这些参数要如何获得?在网页的代码里可以找到生成的过程吗? 解决方案 用fiddler调试下,看看是不是服务器用301跳转加上的,或者用cookie加上的. 解决方案二: 有些是服务器返回的,有些事js运行中动态生成的.

在IE浏览器中打印网页时网页版面太大或太宽打印不全

  当我们使用IE 浏览器打印网页时,可能出出现因为网页版面太大无法正确打印文件,出现打印不全,部分内容缺失的情况. 这个是因为网页本身的设计宽度超过一般的 A4 纸张宽度,如果按网页原来的像素比例打印,会导致部分内容超出可打印的范围而被切除.请按您的使用习惯选择以下两种方法中的其中一种解决方法: 方法一:修改打印格式的边界设定 这个方法比较常用,但一些超宽的网页可能无效. 1.打开IE 浏览器,在打开需要打印的网页.然后点击菜单栏的「文件」 ,在选择「页面设置」 项,如下图所示: 注意:如果找

如何解决在浏览网页时网页图片不能显示的问题

而,许多网友在浏览网页时遇到网页图片不能显示的问题,给网络应用带来了很大的不便.造成网页图片不能显示的原因很多,现在,我们通过多种方式进行探索和解决. 首先,我们可以尝试使用金山卫士对系统进行修复,系统修复中包含了IE修复,可以解决浏览器出错引起的网页图片无法显示问题. 打开金山卫士,点击"查杀木马"图标,再点击"系统修复"选项卡即可. 扫描完成后点击"修复"即可解决一些网页不显示图片的问题. 如果网页不显示图片的问题仍然没有解决,我们需要手动检

IE浏览器中打印网页时网页版面太大或太宽打印不全

  方法一:修改打印格式的边界设定 这个方法比较常用,但一些超宽的网页可能无效. 1.打开IE 浏览器,在打开需要打印的网页.然后点击菜单栏的「文件」 ,在选择「页面设置」 项,如下图所示: 注意:如果找不到IE菜单栏,可以在IE中按下键盘上的 Alt 键即可显示出来. 2.在「页面设置」窗口中,将「纸张大小」设定为「A4」 ,然后将左右页边距设置为「5」 ,上下页边距设定为「10」 .最后点击「确定」 按钮.如下图所示: 注意:每个型号的打印机都有最小的可打印边界,上下左右边界必须设定在您的打

【Python爬虫5】提取JS动态网页数据

动态网页示例 对加载内容进行逆向工程 1通过开发者工具的逆向工程 2通过墨盒测试的逆向工程 21搜索条件为空时 22用号匹配时 22用号匹配时 渲染动态网页 1使用WebKit渲染引擎 2使用Selenium自定义渲染 现在大部分的主流网站都用JavaScript动态显示网页内容,这样使得我们之前提取技术无法正常运行.本篇将介绍两种提取基于JS动态网页的数据. JavaScript逆向工程 渲染JavaScript 1.动态网页示例 我们先看一个动态网页的示例.在示例网站的中,我们从http:/

解决python写的爬虫程序抓取到的网页是乱码的问题

在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办? 下面所说的都是针对python2.7 如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码. #chardet 需要下载安装 import chardet #抓取网页html html_1 = urllib2.urlopen(line,timeout=120).read() #print html_1 mychar=chardet.detect(html_1) #print myc