python批量下载豆瓣图片代码

溜达豆瓣的时候,发现一些图片,懒得一个一个扒,之前写过c#和python版本的图片下载,因此拿之前的Python代码来改了改,折腾出一个豆瓣版本,方便各位使用

# -*- coding:utf8 -*-
import urllib2, urllib, socket
import re
import requests
from lxml import etree
import os, time

DEFAULT_DOWNLOAD_TIMEOUT = 30

class AppURLopener(urllib.FancyURLopener):
    version = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT)"

def check_save_path(save_path):
    if not os.path.exists(save_path):
        os.makedirs(save_path)

def get_image_name(image_link):
    file_name = os.path.basename(image_link)
    return file_name

def save_image1(image_link, save_path):
    file_name = get_image_name(image_link)
    file_path = save_path + "\\" + file_name
    print("准备下载{0} 到{1}".format(image_link, file_path))
    try:
        urllib._urlopener = AppURLopener()
        socket.setdefaulttimeout(DEFAULT_DOWNLOAD_TIMEOUT)
        urllib.urlretrieve(url=image_link, filename=save_path)
        return True
    except Exception, ex:
        print(ex.args)
        print("下载文件出错:{0}".format(ex.message))
        return False

def save_image(image_link, save_path):
    file_name = get_image_name(image_link)
    file_path = save_path + "\\" + file_name
    print("准备下载{0} 到{1}".format(image_link, file_path))
    try:
        file_handler = open(file_path, "wb")
        image_handler = urllib2.urlopen(url=image_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()
        file_handler.write(image_handler)
        return True
    except Exception, ex:
        print("下载文件出错:{0}".format(ex.message))
        return False

def get_thumb_picture_link(thumb_page_link):
    try:
        html_content = urllib2.urlopen(url=thumb_page_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()
        html_tree = etree.HTML(html_content)
        # print(str(html_tree))
        link_tmp_list = html_tree.xpath('//div[@class="photo_wrap"]/a[@class="photolst_photo"]/img/@src')
        page_link_list = []
        for link_tmp in link_tmp_list:
            page_link_list.append(link_tmp)
        return page_link_list
    except Exception, ex:
        print(ex.message)
        return []

def download_pictures(album_link, min_page_id, max_page_id, picture_count_per_page, save_path):
    check_save_path(save_path)
    min_page_id = 0
    while min_page_id < max_page_id:
        thumb_page_link = album_link + "?start={0}".format(min_page_id * picture_count_per_page)
        thumb_picture_links = get_thumb_picture_link(thumb_page_link)
        for thumb_picture_link in thumb_picture_links:
            full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/large")
            save_flag = save_image(image_link=full_picture_link, save_path=save_path)
            if not save_flag:
                full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/photo")
                save_image(image_link=full_picture_link, save_path=save_path)
            time.sleep(1)
        min_page_id += 1
    print("下载完成")

# 设置图片保存的本地文件夹
save_path = "J:\\douban\\meiren2"
# 设置相册地址,注意以反斜杠结尾
album_link = "https://www.douban.com/photos/album/43697061/"
# 设置相册总页数
max_page_id = 9
# 设置每页图片数量,默认为18张
picture_count_per_page = 18
download_pictures(album_link, max_page_id, picture_count_per_page, save_path)

=============================================================

相对urllib2来说,urllib 真的比较坑,如果不设置User-Agent,下载速度会超慢无比,另外还需要调用socket模块来设置超时时间,比较折腾,最终可能还会踩到其他坑里去,比如我下着下着就被豆瓣给‘屏蔽’啦,so建议使用urllib2。

时间: 2024-10-26 13:09:08

python批量下载豆瓣图片代码的相关文章

有哪一款软件可以在批量下载网页图片的同时自动更改图片标题?

问题描述 有哪一款软件可以在批量下载网页图片的同时自动更改图片标题? < i mg src=""http://www.baidu.com/group1/M00/79/DF/ea893a83373aa25f0c968ad9a0528a97.gif"" alt="""">< p class = "" comment "" > 优美的风景画 < / p >

猎豹浏览器怎么批量下载网页图片

  1.打开猎豹浏览器点击左上角头像→猎豹应用市场(http://store.liebao.cn/) 2.搜索图片批量 3.点击"Fatkun图片批量下载"应用安装 4.打开所需要批量下载的图片页面 5.点击"Fatkun图片批量下载"图片进行图片批量查看(支持所有页面以及当前页面) 6.点击"保存图片"进行图片批量下载 7.弹出提示,需要关闭下载前询问每个文件的保存位置(点击猎豹浏览器点击左上角头像→设置→更多设置里关闭[下载前询问每个文件的保

python批量下载图片的三种方法_python

有三种方法,一是用微软提供的扩展库win32com来操作IE,二是用selenium的webdriver,三是用python自带的HTMLParser解析.win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到).selenium则提供了Chrome,IE,FireFox等的支持,每种浏览器都有execute_script和find_element_by_xx方法,可以方便的执行js脚本(包括修改元素)和读取html里面的元素.不足是selenium只提供对py

python批量同步web服务器代码核心程序_python

#!/usr/bin/env python #coding:utf8 import os,sys import md5,tab from mysql_co.my_db import set_mysql from ssh_co.ssh_connect import sshd from ssh_co.cfg.config import ssh_message,item_path from file import findfile def my_mysql(): db_file={} my_conne

python批量下载壁纸的实现代码_perl

复制代码 代码如下: #! /usr/bin/env python ##python2.7-批量下载壁纸 ##壁纸来自桌酷网站,所有权归属其网站 ##本代码仅做为交流学习使用,请勿用于商业用途,否则后果自负 ##Code by Dreamlikes import re,urllib,urllib2 #保存图片的路径 savepath = 'd:\\picture\\' #壁纸集合的URL,如下 url = 'http://www.zhuoku.com/zhuomianbizhi/game-gam

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码_python

复制代码 代码如下: #coding=gbkfrom xml.dom import minidom,Nodeimport urllib2,re,osdef readsrc(src):    try:        url = urllib2.urlopen(src)        content = url.read()#.decode('utf-8')        return content    except:        print 'error'        return Non

python抓取豆瓣图片并自动保存示例学习_python

环境Python 2.7.6,BS4,在powershell或命令行均可运行.请确保安装了BS模块 复制代码 代码如下: # -*- coding:utf8 -*-# 2013.12.36 19:41 wnlo-c209# 抓取dbmei.com的图片. from bs4 import BeautifulSoupimport os, sys, urllib2 # 创建文件夹,昨天刚学会path = os.getcwd()          # 获取此脚本所在目录new_path = os.pat

php批量下载网页图片并替换路径为本地

一篇文章复制过来,发现图片路径都是别人网站的,如何一键下载这些图片到本地,并且修改成为本地的路径呢.    代码如下 复制代码 /**  * 获取替换文章中的图片路径  * @param string $xstr 内容 采集网页的content  * @param string $keyword 创建照片的文件名 我写upimg  * @param string $oriweb 网址 一般写null  * @return string  *  */ function replaceimg($xs

下载网站图片代码并且解析乱码_JSP编程

复制代码 代码如下: // 获取网站对象 ServletContext context = this.getServletContext(); // 获取网站资源 String path = context.getRealPath("/imgs/人.jpg"); File file = new File(path); System.out.println(file); // 设置响应头通知浏览器数据的处理方式 response.setHeader("content-dispo