豆瓣-python爬虫,遇到403 forbidden,求助。

问题描述

python爬虫,遇到403 forbidden,求助。
 # -*- coding: utf-8 -*-
import re
import sys
import requests
reload(sys)
sys.setdefaultencoding("utf-8")

if __name__ == '__main__':
    url = 'https://movie.douban.com/subject/1433330/photos?type=W'
    # 获取网页源码
    html = requests.get(url)

    # 抓每个图片链接
    pic_url = re.findall('<img src="https://(.*?)" />', html.text, re.S)  #此链接为预览链接
    i = 0
    for each in pic_url:
        raw = re.sub('thumb','raw',each,re.S)    //将预览链接中的thumb替换成raw,便成了高清图片链接
        print 'now download..'+'https://'+raw
        pic = requests.get('https://'+raw)
        f = open('hp'+str(i)+'.jpg','wb')
        f.write(pic.content)
        f.close()
        i += 1

刚开始学爬虫,爬豆瓣电影的壁纸练手。现在程序可以跑下来,不返回错,但是下载的图片是失败的,response 返回 403 forbidden。

我这样想问题的原因对吗?

因为我想下高清的,但是豆瓣查看高清壁纸前,需要登录,但我的程序是没有登录的,所以出现403是吗?所以我得模拟登陆是吗?

刚注册,木有悬赏币。。谢谢

解决方案

微软 403 Forbidden
403 forbidden
403 Forbidden

解决方案二:

之前做过很多爬虫处理,其实你要懂,不是每个网站都那么好爬虫的。

对方:例如豆瓣为了防止访问量过大,服务器压力的承受,所以就啪啪啪整个403给你(服务器理解客户的请求,但拒绝处理它)。

他给你返回403,就是告诉你一种状态,根据他告诉你的态度,你作为男朋友的是不是应该改改自己的脾气。例如,对方发现你没有加header,对方发现你Cookies不对,或者是发现你的访问速度过快,所以就直接block你了。

很多这样衍生的问题,作为一个聪明的Crawler,你应该知道怎么爬对方的东西,才让对方服务器把你判断为人,而不是爬虫程序。

总之一句,根据反馈的错误信息,去思考应该怎么处理问题。这里没有给出详细的答案,但是你可以尝试着去理解豆瓣的block机制。

解决方案三:

403就是告诉你没有权限,这个服务器做了判断,需要对用户身份做验证,一般会通过cookie等,所以你没有登陆就没办法访问。

解决方案四:

你可以使用代理ip,可以使用神箭手云爬虫,自带ip代理的爬虫。

时间: 2024-12-03 11:55:53

豆瓣-python爬虫,遇到403 forbidden,求助。的相关文章

ssl-小白求助:python爬虫

问题描述 小白求助:python爬虫 这是报错 正在下载第1个网页,并将其储存为00001.html.... Traceback (most recent call last): File "D:python 学习百度贴吧的一个小爬虫.py", line 22, in baidu_tieba(bdurl,begin_page,end_page) File "D:python 学习百度贴吧的一个小爬虫.py", line 9, in baidu_tieba m=url

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台 从 http://python.org/

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

        本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识.         感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~ 一. 引入Selenium自动爬取百度图片         下面这部分Selenium代码的主要功能是:        

一些常用的Python爬虫技巧汇总_python

Python爬虫:一些常用的爬虫技巧总结 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情. 1.基本抓取网页 get方法 import urllib2 url "http://www.baidu.com" respons = urllib2.urlopen(url) print response.read() post方法 import urllib import urllib2 url = "http://abcde.com" form = {

Python爬虫常用用法技巧

用python也差不多一年多了,python应用最多的场景还是web快速开发.爬虫.自动化运维:写过简单网站.写过自动发帖脚本.写过收发邮件脚本.写过简单验证码识别脚本. 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情. 1.基本抓取网页 get方法 import urllib2 url  "http://www.baidu.com" respons = urllib2.urlopen(url) print response.read()   post方法   im

天罗地网——Python爬虫初初初探

环境准备 Python 我们使用Python2.7进行开发,注意配置好环境变量. IDE 我们使用Pycharm进行开发,它和大名鼎鼎的Android Studio.IDEA同出一门--Jet Brains. 关于破解,很无耻的贴两个: 用户名:yueting3527 注册码: ===== LICENSE BEGIN ===== 93347-12042010 00001FMHemWIs"6wozMZnat3IgXKXJ 2!nV2I6kSO48hgGLa9JNgjQ5oKz1Us FFR8k&q

【Python爬虫1】网络爬虫简介

调研目标网站背景 1 检查robotstxt 2 检查网站地图 3 估算网站大小 4 识别网站所有技术 5 寻找网站所有者 第一个网络爬虫 1 下载网页 重试下载 设置用户代理user_agent 2 爬取网站地图 3 遍历每个网页的数据库ID 4 跟踪网页链接 高级功能 解析robotstxt 支持代理Proxy 下载限速 避免爬虫陷阱 最终版本 1 调研目标网站背景 1.1 检查robots.txt http://example.webscraping.com/robots.txt # se

详解Java豆瓣电影爬虫——小爬虫成长记(附源码)_java

以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候,总感觉这很黑科技.正好这次借助梳理Spring MVC的机会,想自己弄个小爬虫,简单没关系,有些小bug也无所谓,我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了.有Exception就去解决,可能是一些API使用不当,也可能是遇到了http请求状态异常,又或是数据库读写有问题,就是在这

python 爬虫 怎么获取标签中的注释?我用得lxml解析html

问题描述 python 爬虫 怎么获取标签中的注释?我用得lxml解析html <span>当前第9127页 <!--共136904条-->  </span> 怎么才能获取注释里的值呢? tree=etree.HTML(page) pagenumber=tree.xpath(xpathStr) for i in pagenumber: totalpage=filter(str.isdigit,str(i)) 解决方案 注释不属于xml格式了,你拿到span节点后获取它的