Python 爬虫模拟登陆知乎_python

在之前写过一篇使用python爬虫爬取电影天堂资源的文章，重点是如何解析页面和提高爬虫的效率。由于电影天堂上的资源获取权限是所有人都一样的，所以不需要进行登录验证操作，写完那篇文章后又花了些时间研究了一下python模拟登陆，网上关于这部分的资料很多，很多demo都是登陆知乎的，原因是知乎的登陆比较简单，只需要post几个参数，保存cookie。而且还没有进行加密，很适合用来做教学。我也是是新手，一点点的摸索终于成功登陆上了知乎。就通过这篇文章分享一下学习这部分的心得，希望对那些和我一样的初学者有所帮助。

　　先来说一下，爬虫模拟登陆的基本原理吧，我也是刚开始接触对于一些深层次的东西也不是掌握的很清楚。首先比较重要的一个概念就是cookie，我们都知道HTTP是一种无状态的协议，也就是说当一个浏览器客户端向服务器提交一个request，服务器回应一个response后，他们之间的联系就中断了。这样就导致了这个客户端在向服务器发送请求时，服务器无法判别这两个客户端是不是一个了。这样肯定是不行的。这时cookie的作用就体现出来了。当客户端向服务器发送一个请求后，服务器会给它分配一个标识（cookie），并保存到客户端本地，当下次该客户端再次发送请求时连带着cookie一并发送给服务器，服务器一看到cookie，啊原来是你呀，这是你的东西，拿走吧。所以一个爬虫模拟登陆就是要要做到模拟一个浏览器客户端的行为，首先将你的基本登录信息发送给指定的url，服务器验证成功后会返回一个cookie，我们就利用这个cookie进行后续的爬取工作就行了。

　　我这里抓包用的就是chrome的开发者工具，不过你也可以使用Fiddler、Firebug等都可以，只不过作为一名前端er对chrome有一种特殊的喜爱之情。准备好工具接下来就要打开知乎的登陆页面并查看https://www.zhihu.com/#signin 我们可以很容易发现这个请求发送的就是登录信息，当然我使用手机登陆的用邮件登陆的是最后结尾是email

所以我们只需要向这个地址post数据就行了

phone_num 登录名
password 密码
captcha_type 验证码类型(这个参数着这里并没有实质作用)
rember_me 记住密码

_xsrf 一个隐藏的表单元素知乎用来防御CSRF的（关于CSRF请打开这里）我发现这个值是固定所以就在这里直接写死了若果有兴趣的同学可以写一个正则表达式把这部分的值提取出来这样更严谨一些。

# -*- coding:utf-8 -*-
import urllib2
import urllib
import cookielib
posturl = 'https://www.zhihu.com/login/phone_num'
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/52.0.2743.116 Safari/537.36',
'Referer':'https://www.zhihu.com/'
}
value = {
'password':'*****************',
'remember_me':True,
'phone_num':'*******************',
'_xsrf':'**********************'
}
data=urllib.urlencode(value)
#初始化一个CookieJar来处理Cookie
cookieJar=cookielib.CookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cookieJar)
#实例化一个全局opener
opener=urllib2.build_opener(cookie_support)
request = urllib2.Request(posturl, data, headers)
result=opener.open(request)
print result.read()

当你看到服务器返回这个信息的时候就说明你登陆成功了

{"r":0,
"msg": "\u767b\u5f55\u6210\u529f"
}#翻译过来就是 “登陆成功” 四个大字

然后你就可以用这个身份去抓取知乎上的页面了

page=opener.open("https://www.zhihu.com/people/yu-yi-56-70")
content = page.read().decode('utf-8')
print(content)

这段代码就是通过实例化一个opener对象保存成功登陆后的cookie信息，然后再通过这个opener带着这个cookie去访问服务器上关于这个身份的完整页面。更复杂的比如微博的登陆这种对请求的数据进行加密了的后面有时间再写出来，与大家分享

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索python
，爬虫
，模拟登陆
，模拟登陆知乎
知乎
python 爬虫模拟登陆、python模拟登陆知乎、python3模拟登陆知乎、python 爬虫知乎、python爬虫爬取知乎，以便于您获取更多的相关知识。

时间： 2024-09-01 12:13:34

Python 爬虫模拟登陆知乎_python的相关文章

Python使用Srapy框架爬虫模拟登陆并抓取知乎内容_python

一.Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括: Cookie名字(Name)Cookie的值(Value) Cookie的过期时间(Expires/Max-Age) Cookie作用路径(Path) Cookie所在域名(Domain),使用Cookie进行安全连接(Secure) 前两个参数是Cookie应用的必要条件,另外,还包括Cookie大小(Size,不同浏览器对Cookie个数及大小

Python爬虫爬取知乎小结

最近学习了一点网络爬虫,并实现了使用Python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧. Python有很多开源工具包供我们使用,我这里使用了requests.BeautifulSoup4.json等包.requests模块帮助我们实现http请求,bs4模块和json模块帮

零基础写python爬虫之urllib2使用指南_python

前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节. 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy. 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理. 新建test14来实现一个简单的代理Demo: 复制代码代码如下: import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http&

python requests模拟登陆github

1. Cookie 介绍 HTTP 协议是无状态的.因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信.Cookie 就是「其他手段」之一. Cookie 一个典型的应用场景,就是用于记录用户在网站上的登录状态. 用户登录成功后,服务器下发一个(通常是加密了的)Cookie 文件. 客户端(通常是网页浏览器)将收到的 Cookie 文件保存起来. 下次客户端与服务器连接时,将 Cookie 文件发送给服务器,由服务器校验其含义,恢复登录状态(从而避免再次登录)

Python 模拟登录知乎

前言必备知识点 headers Referer User-Agent 隐藏域其他模拟登录模拟防爬服务器端 loginphp loginhtml 浏览器测试正常提交用户名密码的话如下用户名或者密码填写错误的情况如下爬虫没有添加隐藏域时添加了隐藏域的爬虫知乎模拟登录更新版知乎模拟登陆代码部分验证效果总结前言前天看到一个爬取了知乎50多万评论的帖子, 羡慕的同时也想自己来尝试一下.看看能不能获取一些有价值的信息. 必备知识点下面简单的来谈谈我对常见的防爬虫的一些技巧的

python爬虫入门基本知识

基础知识 HTTP协议我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器索取数据,如何向服务器索取数据,所以了解HTTP协议就显得很有必要了. HTTP协议中文名称是超文本传输协议,是一个基于请求与响应模式的.无状态的.应用层的协议,常基于TCP的连接方式.请求和响应模式很好理解,客户端发送请求,服务器响应客户端的请求,就像学校食堂打菜一样,你和打菜阿姨说要哪份菜,她才

网络爬虫-关于用python模拟登陆新浪微博返回内容

问题描述关于用python模拟登陆新浪微博返回内容第一次提交登陆信息和参数后,按照网上大神们的代码应该是在返回的内容中找到location.replace(....)提取url然后再访问,但是我post表单后得到的似乎不是登陆页面也不是正常登陆的页面不知道这是一个什么页面...算是登陆上去了吗? 解决方案基于python的新浪微博模拟登陆2014_新浪微博模拟登陆_python模拟新浪微博登陆---------------------- 解决方案二: 看上去是一个登录后的判断页面,要看你

python实现登陆知乎获得个人收藏并保存为word文件_python

这个程序其实很早之前就完成了,一直没有发出了,趁着最近不是很忙就分享给大家. 使用BeautifulSoup模块和urllib2模块实现,然后保存成word是使用python docx模块的,安装方式网上一搜一大堆,我就不再赘述了. 主要实现的功能是登陆知乎,然后将个人收藏的问题和答案获取到之后保存为word文档,以便没有网络的时候可以查阅.当然,答案中如果有图片的话也是可以获取到的.不过这块还是有点问题的.等以后有时间了在修改修改吧. 还有就是正则,用的简直不要太烂-鄙视下自己- 还有,现在是

爬虫-用python模拟登陆csdn时参数lt要如何获得？

问题描述用python模拟登陆csdn时参数lt要如何获得? 网上看到代码是用正则表达式,可是我打印出来的网页代码里没有相关的内容,运行代码用findall返回的也是一个空列表..请问应该在哪里得到lt参数? 解决方案可能是js运行时动态生成. 解决方案二: 你把你登录时候的lt参数值复制下来,填充到你的程序里面试试.

猜你喜欢

Photoshop制作人像照片部分脸庞阿凡达效果

先看看效果图下面是原图第一步:图片去色(快捷键ctrl+shift+U)后在通道选择任意通道复制. 第二步:色阶参数86-1-105得到如下图再用黑色画笔把右脸要变蓝地方涂成黑色第三步:载 ...

sift-已经用opencv对2副图片进行了SIFT特征点匹配，这一对一对的特征点存储在哪里呢，网上找的代码

问题描述已经用opencv对2副图片进行了SIFT特征点匹配,这一对一对的特征点存储在哪里呢,网上找的代码已经用opencv对2副图片进行了SIFT特征点匹配,那么这一对一对的特征点存储在哪里呢, ...

jquery实现类似淘宝星星评分功能实例

html部分代码如下: 01 <body> 02 <div id="div"> 03 <ul> 04 <li ...

JAVA的网络功能与编程二

编程|网络五.显示网络上其他HTML文档利用Java提供的getAppletContext().showDocument(URL)可以显示其他结点的HTML文档,同前面的显示网络 ...

Microsoft .NET 框架常见问题（一）

Microsoft .NET 框架常见问题 Microsoft Corporation 概念问题什么是 .NET? 简单地说,Microsoft .NET 是 Microsoft 以服务的方式递交软件 ...

FireWorks MX 2004面板设置组合与保存

用惯了Fireworks MX,打开Fireworks MX 2004时的第一件事就是重组右侧的执行面板.Fireworks MX 2004本身的默认设置(800×600分辨率下),只有Assets, ...

使用Java实现一个简单的递归算法的实例

//CFAN 2002 //递归算法 //求阶乘 import java.io.*; public class DiGui { public static void main(String args[ ...

我的WCF之旅（8）：WCF中的Session和Instancing Management

WCF中的Session 我们知道,WCF是MS基于SOA建立的一套在分布式环境中各个相对独立的Application进行Communication的构架.他实现了最新的基于WS-*规范.按照SOA的 ...

解析php中curl

php的multi_curl功能慎用,因为某些版本的curl和php的搭配有Bug.所以你调试过没问题的代码很可能在别的机器上不正确相信许多人对php手册中语焉不详的curl_multi一族的函 ...

Windows8修改MAC网卡地址和安装协议

本系列教程之前的章节讲解了IP以及DNS的修改方法,MAC地址修改以及协议的安装教程. 操作步骤鼠标单击网络标签的连接时使用中的配置按钮,打开网络设备驱动属性.切换到高级标签,选择网络地址,勾选 ...

量产U盘的一般错误

有很多朋友在用U盘启动时喜欢把U盘量产成CD-ROM格式,但在量产的过程中总会出现这样或那样的问题,现在就说说最容易犯的两个错误. 一.U盘芯片型号搞错. 二.计算机USB插口电流.电压不足.第一 ...

有闲-建一个这样的展示网站（主要用作app下载），大概需要多少money ？？

问题描述建一个这样的展示网站(主要用作app下载),大概需要多少money ?? [有闲]网站地址 http://www.youxianapp.com/自学的话,多久能自己做出来求教大神!!

Redis故障案例(一)-特定key批量丢失

TroubleShooting-排障是DBA一项重要技能,通过故障表现的症状,先让业务快速恢复止损,同时分析故障的根因(rootCause),给出解决方案并从根本上修复故障,最后总结从产品或流程上怎么 ...

sql语句查询问题。。。。。

问题描述 sql语句查询问题..... 一张学生表,字段学生姓名name,学科xk,成绩cj,查询平均成绩大于90,并且语文成绩大于95的学生姓名, 求解答~!!! 解决方案命名查询的sql语句的问 ...

微软“surface”冲击日本PC崩溃？

美国微软公司推出的自主品牌"Surface",这款轻薄的平板电脑终端改变了以往的计算机业界的"水平分工(硬件和软件由不同厂家生产)"模式. 2012年10月 ...

First-chance exception in i.exe (NTDLL.DLL):

问题描述 First-chance exception in i.exe (NTDLL.DLL): 请问First-chance exception in integrated_navigation. ...

node webkit-在node-webkit开发过程中主界面如何与子窗口通信

问题描述在node-webkit开发过程中主界面如何与子窗口通信比如A界面为程序启动后出现的主界面,在A界面进行相关的操作,如修改.删除等,会弹出对应的修改或删除窗口B:A与B之间数据怎么传递呢 ...

DBA不失业：云时代的数据库性能优化全攻略

性能问题是数据库中最重要也是最迫切要解决的问题之一,随着业务的发展和数据的不断加增,用户对于系统的响应速度的要求越来越高.而归根结底就是要提高数据库系统的性能.对于大部分的DBA来说,性能优化并不是一 ...

c# des 加密如何转换成php实现

问题描述 c# des 加密如何转换成php实现 c#------------- private string DES3Encrypt(string data, string key, string ...

《Photoshop修饰与合成专业技法》—第1章伪造的抠像：第二部分

伪造的抠像:第二部分大多数时候,使用画笔进行抠像是非常有用的.但是一项技术并不一定适合每张图片或者每种情况.在这个例子中,我们面临的挑战是从背景中选取狮子的鬃毛,并且使它看起来真实可信. 我从我的朋 ...

SELinux 的沙箱和 W^X 页保护被绕过

"2016年6月23日,Google Project Zero的成员Jann Horn发现了一种能绕过SELinux的W^X页保护机制的方法,通常aio_setup_ring()的调用只会允 ...

数据分析师的职业规划之路

◆ ◆ ◆ 导读 "数据分析师作为一个出现时间不长的工种,大数据时代下,成为螺丝钉还是成为龙头,需要尝试新的可能." ◆ ◆ ◆ 数据分析师的职业规划数据分析师手中拥有一座宝藏 ...

《远征军》硝烟弥漫黄志忠力求展现史实(图)

黄志忠身处硝烟弥漫黄志忠再饰军中硬汉黄志忠剧照韩绍功总是自在战斗前线新浪娱乐讯大型战争史诗电视剧<中国远征军>自于江苏卫视.云南卫视播出已有一周时间,凭借其真实的故事情节,令人震 ...

Ajax技术与搜索引擎优化的研究

最近,不少在烁空学有所成的老学员问我:"在ASP.Net网站开发中,如何让Ajax页面让搜索引擎收录到?"众所周知,在AJAX中所有onClick动作直接触发javascript事 ...

CSS可以做的几个令你叹为观止的实例分享_经验交流

在我写"你未必知道的JavaScript和CSS交互的5种方法"一文时,人们对于JavaScript和CSS是如何重叠的感到惊讶.今天,我将重点强调你能用CSS完成的7种工作--不 ...

apache网站日志LogFormat记录格式的参数

例代码如下复制代码 ErrorLog "xxx/log/error2.log " LogFormat "%h %l %u %t "%r" %&g ...

JFrame 获取不到子容器？

问题描述 ASFrameasf=newASFrame("MyFrame");asf.setBackground(Color.CYAN);asf.setLayout(null);as ...

网络安全法解读:开启我国信息网络立法进程

11月7日,十二届全国人大常委会第二十四次会议表决通过了<中华人民共和国网络安全法>.中国社会科学院法学研究所研究员.中国法学会互联网与信息法学研究会副会长周汉华今日接受正义网记者专访时表 ...

错误问题：OpenGL version to old,GLViewinitWithRect(const stdbasic_stringchar,stdchar_traitschar,stdalloca

1电脑装成Linux之后,在Linux里面装虚拟机运行cocos2d-x-3.2时报如下错误: plan3d.exe!cocos2d::GLView::initWithRect(const st ...

微博VS SNS：谁才是企业的宣传部长

中介交易 SEO诊断淘宝客云主机技术大厅谁能否认微博的力量?没有人能够否认,当你发现每个人都可以通过微博直播的方式报道身边发生的人和事,你会发现这个世界越来越透明了.微博就像一个精通十八般武艺 ...

热搜