Python模拟登陆

下面分享一个使用Python进行网站模拟登陆的小例子。

原理

使用Cookie技术，绕开网站登录验证。要使用到cookielib库。流程：

创建一个保存Cookie的容器，可选的有CookieJar,FileCookieJar,MozillaCookieJar,LWPCookieJar.其相互之间的关系是CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar.
然后创建一个处理Cookie的处理器handler.通过urllib2.HTTPCookieProcessor(cookie)即可
创建一个用于开启网站的opener。即可。这个opener相比于urllib2.urlopen方法更为普通一点而已。opener = urllib2.build_opener(handler)。
然后我们就可以正常的使用opener来访问网络了。

小案例

实现的功能是模拟登录到大连理工大学的教务网站。代码如下：

# coding:UTF-8

import urllib,urllib2,cookielib

filename = r'F:\pachong\gaoqing\dlutcookie.txt'
# show cookie and save to local
cookie = cookielib.MozillaCookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
# 记得使用urllib模块进行参数的encode
postdata = urllib.urlencode({
    # 哈哈，本宫不给你们我的账号╭(╯^╰)╮
    'zjh':'xxxxxxxxx',
    'mm':'XXXXXX'
})

# 登陆到教务系统的url
url = 'http://zhjw.dlut.edu.cn/loginAction.do'

# 开始进行模拟登陆，并把cookie保存到变量
response = opener.open(url,postdata)
cookie.save(filename,ignore_discard=True,ignore_expires=True)

# 打印一下获得的cookie信息吧
for item in cookie:
    item.name + ' = ' + item.value

# 利用cookie访问另一个网址   登陆到个人成绩的URL
course_url='http://zhjw.dlut.edu.cn/xkAction.do?actionType=6'
course_header={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.10586',
    'referer':'http://zhjw.dlut.edu.cn/menu/s_main.jsp'
}

result = opener.open(course_url)
print result.read()

运行结果

总结

其实对于模拟登陆而言，第一次的登陆就是为了获取那个cookie数据。然后通过我们创建的opener来完成接下来我们要进行的关键的进一步的操作。我们需要理解的就只是那个cookie的使用的流程就行了。

时间： 2024-10-28 14:26:23

Python模拟登陆的相关文章

网络爬虫-关于用python模拟登陆新浪微博返回内容

问题描述关于用python模拟登陆新浪微博返回内容第一次提交登陆信息和参数后,按照网上大神们的代码应该是在返回的内容中找到location.replace(....)提取url然后再访问,但是我post表单后得到的似乎不是登陆页面也不是正常登陆的页面不知道这是一个什么页面...算是登陆上去了吗? 解决方案基于python的新浪微博模拟登陆2014_新浪微博模拟登陆_python模拟新浪微博登陆---------------------- 解决方案二: 看上去是一个登录后的判断页面,要看你

python模拟登陆新浪微博，设置登录不需要验证码，代码返回验证码错误

问题描述 python模拟登陆新浪微博,设置登录不需要验证码,代码返回验证码错误网页登陆不需要验证码代码返回retcode=2070 验证码输入错误求大神指点解决方案用fiddler调试下,看看是否带上了cookie,新浪是否传给你验证码,如果传了,必须先识别. 解决方案二: http://blog.csdn.net/ta790799213/article/details/44205351http://www.crazyant.net/796.htmlhttp://www.2cto.c

爬虫-用python模拟登陆csdn时参数lt要如何获得？

问题描述用python模拟登陆csdn时参数lt要如何获得? 网上看到代码是用正则表达式,可是我打印出来的网页代码里没有相关的内容,运行代码用findall返回的也是一个空列表..请问应该在哪里得到lt参数? 解决方案可能是js运行时动态生成. 解决方案二: 你把你登录时候的lt参数值复制下来,填充到你的程序里面试试.

python模拟登陆后，下载网站图片

问题描述 python模拟登陆后,下载网站图片采用的 urllib2 cookielib 两个包模拟Cookie及登陆网站,登陆成功后,也筛选出了图片地址,采用urllib2.urlopen打开图片,再写到本地,图片是损坏的,图片打开是花的,怎么使用urllib.urlretrieve下载图片?将urllib2 的cookie值付给urllib.urlretrieve?不然提示无权限下载?高手帮忙解决方案根据Need urllib.urlretrieve and urllib2.Open

python模拟登陆获取和处理发送post request和head数据

今天这篇文章说下如何获取和处理发送post request和head数据. 工具: firefox浏览器及firebug插件. (其他的如httpfox,live http head ,fiddler,httpwatch 也行) 1.查看分析登陆页面html代码,看是否有iframe 我们写一个自动登录的脚本的时候,先要分析出需要post request和head数据,以及post的网址等.这里,我们先打开firebug开始监控,然后打开网站的登陆页面:/IndexPage/Index.a

python模拟登陆之验证码与cookies的同步处理思路

自动登陆可能是写爬虫的第一步,如果都不能登陆,很多东西爬不到的.这也不是第一次写包含验证码识别的自动登陆脚本了.这次有点被坑住了,把这次的记录下来. 这次要自动登陆的网站地址是:2013年株洲市中小学教师全员培训 /IndexPage/Index.aspx 先说下思路,好多人写那些不需要验证码识别的自动登陆脚本很容易,只要保存好cookies就可以了,但是对于需要验证码的网站就总是登陆不上去. 对于需要验证码的网站的自动登陆脚本的步骤:(以上面我说的那个网站为例,对于python和其他语言,

python模拟登陆网站时一些随机参数是如何生成的？

问题描述 python模拟登陆网站时一些随机参数是如何生成的? 比如登陆新浪微博的时候有survertime nonce这样的随机参数,还有一些网站会有一些不固定的一大串的参数,这些参数要如何获得?在网页的代码里可以找到生成的过程吗? 解决方案用fiddler调试下,看看是不是服务器用301跳转加上的,或者用cookie加上的. 解决方案二: 有些是服务器返回的,有些事js运行中动态生成的.

python模拟登陆csdn-python模拟csdn的登录页面，可是登录失败，只是返回登陆页面的代码

问题描述 python模拟csdn的登录页面,可是登录失败,只是返回登陆页面的代码 #!/usr/bin/python#encoding=utf-8import HTMLParserimport urlparseimport urllibimport urllib2import cookielibimport stringimport re hosturl = 'http://my.csdn.net'posturl = 'http://passport.csdn.net/account/logi

Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享_python

支付宝十年账单上的数字有点吓人,但它统计的项目太多,只是想看看到底单纯在淘宝上支出了多少,于是写了段脚本,统计任意时间段淘宝订单的消费情况,看那结果其实在淘宝上我还是相当节约的说. 脚本的主要工作是模拟了浏览器登录,解析"已买到的宝贝"页面以获得指定的订单及宝贝信息. 使用方法见代码或执行命令加参数-h,另外需要BeautifulSoup4支持,BeautifulSoup的官方项目列表页:https://www.crummy.com/software/BeautifulSoup/bs4