python爬虫入门教程之糗百图片爬虫代码分享_python

学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。

用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:

复制代码 代码如下:

# -*- coding: utf-8 -*-
# 上面那句让代码里支持中文

#--------------------------------------- 
#   程序:糗百图片爬虫 
#   版本:0.1 
#   作者:赵伟 
#   日期:2013-07-25 
#   语言:Python 2.7 
#   说明:能设置下载的页数。没有做更多抽象和交互方面的优化。 
#---------------------------------------

import urllib2
import urllib
import re

#正则表达式,用来抓取图片的地址
pat = re.compile('<div class="thumb">\\n<img src=\"(ht.*?)\".*?>')

#用来合成网页的URL
nexturl1 = "http://m.qiushibaike.com/imgrank/page/"
nexturl2 = "?s=4582487&slow"

#页数计数
count = 1

#设置抓取的页数
while count < 3:

    print "Page " + str(count) + "\n"
    myurl = nexturl1 + str(count) + nexturl2
    myres = urllib2.urlopen(myurl)#抓取网页
    mypage = myres.read()#读取网页内容
    ucpage = mypage.decode("utf-8") #转码

    mat = pat.findall(ucpage)#用正则表达式抓取图片地址
       
    count += 1;
   
    if len(mat):
        for item in mat:
            print "url: " + item + "\n"
            fnp = re.compile('/(\w+\.\w+)$')#下面三行分离出图片文件的名称
            fnr = fnp.findall(item)
            fname = fnr[0]
            urllib.urlretrieve(item, fname)#下载图片
      
    else:
        print "no data"

使用方法:新建一个practice文件夹,将源代码保存为qb.py文件,并放在practice文件夹中,在命令行里执行python qb.py,即开始下载图片。可以修改源代码里面的while语句设置下载的页数。

时间: 2024-11-10 00:07:40

python爬虫入门教程之糗百图片爬虫代码分享_python的相关文章

python 图片验证码代码分享_python

复制代码 代码如下: #coding: utf-8 import Image,ImageDraw,ImageFont,os,string,random,ImageFilter def initChars(): """ 允许的字符集合,初始集合为数字.大小写字母 usage: initChars() param: None return: list 返回允许的字符集和 for: picChecker类初始字符集合 todo: Nothing """

Python实现的一个自动售饮料程序代码分享_python

写这个程序的时候,我已学习Python将近有一百个小时,在CSDN上看到有人求助使用Python如何写一个自动售饮料的程序,我一想,试试写一个实用的售货程序.当然,只是实现基本功能,欢迎高手指点,新手学习参考. 运行环境:Python 2.7 # encoding=UTF-8 loop=True money=0 while loop:     x = raw_input('提示:请投入金币,结束投币请按"q"键')     if x=='q':         if money==0:

零基础写python爬虫之抓取糗事百科代码分享_python

项目内容: 用Python写的糗事百科的网络爬虫. 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行. 程序功能: 在命令提示行中浏览糗事百科. 原理解释: 首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1 可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备. 然后,右击查看页面源码: 观察发现,每一个段子都用div标记,其中class必为content,title是发帖时间,我们只需

零基础写python爬虫之抓取百度贴吧代码分享_python

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! 复制代码 代码如下: # -*- coding: utf-8 -*- #--------------------------------------- #   程序:百度贴吧爬虫 #   版本:0.1 #   作者:why #   日期:2013-05-14 #   语言:Python 2.7 #   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数. #   功能:下载对应页

Python实现的下载8000首儿歌的代码分享_python

下载8000首儿歌的python的代码: 复制代码 代码如下: #-*- coding: UTF-8 -*- from pyquery import PyQuery as py from lxml import etree import urllib import re import os import sys import logging def format(filename):     tuple=(' ',''','\'')     for char in tuple:        

python实现多线程暴力破解登陆路由器功能代码分享_python

运行时请在其目录下添加user.txt passwd.txt两文件.否则会报错.程序没有加异常处理.代码比较挫..... 复制代码 代码如下: #coding:utf-8- import base64 import urllib2 import Queue import threading,re,sys queue = Queue.Queue() class Rout_thread(threading.Thread):   def __init__(self,queue,passwd):    

Python随机生成一个6位的验证码代码分享_python

1. 生成源码 复制代码 代码如下: # -*- coding: utf-8 -*- import random def generate_verification_code():     ''' 随机生成6位的验证码 '''     code_list = []     for i in range(10): # 0-9数字         code_list.append(str(i))     for i in range(65, 91): # A-Z         code_list.

python3.3教程之模拟百度登陆代码分享_python

复制代码 代码如下: #-*-coding:utf-8-*-'''Created on 2014年1月10日 @author: hhdys'''import urllib.request,http.cookiejar,reclass Baidu:    def login(self):        cj = http.cookiejar.CookieJar()        opener = urllib.request.build_opener(urllib.request.HTTPCook

python爬虫入门教程之点点美女图片爬虫代码分享_python

继续鼓捣爬虫,今天贴出一个代码,爬取点点网「美女」标签下的图片,原图. # -*- coding: utf-8 -*- #--------------------------------------- # 程序:点点美女图片爬虫 # 版本:0.2 # 作者:zippera # 日期:2013-07-26 # 语言:Python 2.7 # 说明:能设置下载的页数 #--------------------------------------- import urllib2 import urll