python3 爬取https指向的图片链接 问题

问题描述

python3 爬取https指向的图片链接 问题
初学python爬虫部分,昨天动手做了做爬取网页图片并且下载的小程序。
发现网页中有的图片可以被下载并且保存在本地,有的却不能。
查看了下网页代码原来可以被爬取的是

而不能被爬取的是
用urllib包好像处理不了

请问如何解决

附上程序报错提示
Traceback (most recent call last):
File ""D:Python34liburllib
equest.py"" line 1182 in do_open
h.request(req.get_method() req.selector req.data headers)
File ""D:Python34libhttpclient.py"" line 1088 in request
self._send_request(method url body headers)
File ""D:Python34libhttpclient.py"" line 1126 in send_request
self.endheaders(body)
File ""D:Python34libhttpclient.py"" line 1084 in endheaders
self._send_output(message_body)
File ""D:Python34libhttpclient.py"" line 922 in _send_output
self.send(msg)
File ""D:Python34libhttpclient.py"" line 857 in send
self.connect()
File ""D:Python34libhttpclient.py"" line 1231 in connect
server_hostname=server_hostname)
File ""D:Python34libssl.py"" line 365 in wrap_socket
_context=self)
File ""D:Python34libssl.py"" line 583 in __init
_
self.do_handshake()
File ""D:Python34libssl.py"" line 810 in do_handshake
self._sslobj.do_handshake()
ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:600)

During handling of the above exception another exception occurred:

Traceback (most recent call last):
File ""D:py_practicepachong_rumen_1024.py"" line 45 in
bytes = urllib.request.urlopen(url);
File ""D:Python34liburllib
equest.py"" line 161 in urlopen
return opener.open(url data timeout)
File ""D:Python34liburllib
equest.py"" line 463 in open
response = self._open(req data)
File ""D:Python34liburllib
equest.py"" line 481 in _open
'_open' req)
File ""D:Python34liburllib
equest.py"" line 441 in _call_chain
result = func(*args)
File ""D:Python34liburllib
equest.py"" line 1225 in https_open
context=self._context check_hostname=self._check_hostname)
File ""D:Python34liburllib
equest.py"" line 1184 in do_open
raise URLError(err)
urllib.error.URLError:

解决方案

```可以被爬取的是
不可以被爬取的是

解决方案二:
Python3爬取图片

解决方案三:
图片的网址对比一下是否有问题,两者图片地址用浏览器分别打开试试

解决方案四:
写爬虫,用神箭手云爬虫吧,比其他爬虫框架快多了,官方客服mm很热情

时间: 2024-11-08 19:21:35

python3 爬取https指向的图片链接 问题的相关文章

python3爬取1024图片

这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作为一名老司机觉得还是应该以练带学,1024在程序员界这么流行的网站,当然拿来先练一练. python自称是以自然语言的视角来编程,特点是开发快,语言简洁,没那么多技巧,大名鼎鼎的豆瓣.youtube都是使用python开发的网站,看来python在大规模使用这个方面来讲应该没有啥子问题:python

Python爬取京东的商品分类与链接_python

前言 本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历. 如图所示.只是一个简单的哈,不是爬取里面的隐藏的东西. 示例代码 from bs4 import BeautifulSoup as bs import requests headers = { "host": "www.jd.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe

Python爬取淘宝模特图片网络爬虫示例

为了爬取模特的图片,我们首先要找到各个模特自己的页面.通过查看网页源码,我们可以发现,模特各自的页面的特点如下: 我们可以通过查找class属性为lady-name的标签,然后取其href属性来获取各个模特各自的页面地址. 1 html = urlopen(url) 2 bs = BeautifulSoup(html.read().decode('gbk'),"html.parser") 3 girls = bs.findAll("a",{"class&q

Python爬取百度贴吧图片

一.获取URL Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据.首先,我们定义了一个getHtml()函数: urllib.urlopen()方法用于打开一个URL地址. read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来.执行程序就会把整个网页打印输出. 二.查看图片地址   我们又创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接.re模块主要包含了正则表达式: re.c

网络爬虫-根据特定的链接爬取指定内容

问题描述 根据特定的链接爬取指定内容 根据特定链接爬取指定的内容,如:http://s.plcloud.music.qq.com/fcgi-bin/fcg_yqq_song_detail_info.fcg?songid=455850&play=0,根据此网站爬取歌名.歌手名.专辑等信息. 解决方案 看AJAX或HTML框架,找到地址,直接从地址抓.

python爬取NUS-WIDE数据库图片_python

实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm   由于这个数据只给了每个图片的URL,所以需要一个小爬虫程序来爬取这些图片.在图片的下载过程中建议使用VPN.由于一些URL已经失效,所以会下载一些无效的图片. # PYTHON 2.7 Ubuntu 14.04 nuswide = "$NUS-WIDE-urls_ROOT" #the location of your nus-wi

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫.BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析. 涉及内容如下: 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容

Python简易爬虫,爬取斗鱼颜值美女!!

代码简单用作初学Python,只要运行脚本图片自动下载根据,斗鱼网页更新而更新!! QQ学习交流群127591054 JackChiang Python版本3.5 <1>版本1,效果如图片,存在问题不能给图片加自己的名字,代码不够灵活.版本2解决这个问题 #coding=utf-8 #爬取斗鱼颜值妹子图片 import re import urllib import time #定义为方法 def getHTML(url): page = urllib.urlopen(url) html=pa

不利于蜘蛛爬取的网页-蜘蛛陷阱

大家好,我是第一次在这上面发表文章,如有不好地方请高手多多指教. 1.搜索引擎能不能找到网页. 1要让搜搜引擎发现网站首页,就必须有良好的外部链接链接到首页,就找到了首页,然后蜘蛛会沿着链接爬的更深. 让蜘蛛通过简单的html页面的链接到达,javascript链接,flash链接都是蜘蛛的陷阱.这点要注意. 2找到网页后能不能抓去内容. 被发现的蜘蛛是可以被爬取的,数据库动态生成,带过很多的参数url.sessionID.整个页面都是flash.框架结构.大量的转向,和大量的复制内容都可能把蜘