python采集博客中上传的QQ截图文件_python

哎,以前写博文的时候没注意,有些图片用QQ来截取,获得的图片文件名都是类似于QQ截图20120926174732-300×15.png的形式,昨天用ftp备份网站文件的时候发现,中文名在flashfxp里面显示的是乱码的,看起来好难受,所以写了一个python小脚本,爬取整个网站,然后获取每个文章页面的图片名,并判断如果是类似于QQ截图20120926174732-300×15.png的形式就输出并将该图片地址和对应的文章地址保存在文件中,然后通过该文件来逐个修改。

好了,下面是程序代码:

import urllib2
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

baseurl = "http://www.jb51.net/dont-worry.html"
#说明下,起始地址是第一篇文章的地址,通过该文章的页面就
#可以使用BeautifulSoup模块来获取上一篇文章的地址

file = open(r"E:\123.txt","a")

def pageloop(url):
  page = urllib2.urlopen(url)
  soup = BeautifulSoup(page)
  img = soup.findAll(['img'])
  if img == []:
    print "当前页面没有图片"
    return
  else:
    for myimg in img:
      link = myimg.get('src')
      print link

      pattern = re.compile(r'QQ\S*[0-9]*png')
      badimg = pattern.findall(str(link))
      if badimg:
        print url
        file.write(link + "\n")
        file.write(url+"\n")

def getthenextpage(url):
  pageloop(url)
  page = urllib2.urlopen(url)
  soup = BeautifulSoup(page)
  for spanclass in soup.findAll(attrs={"class" : "article-nav-prev"}):
    #print spanclass
    if spanclass.find('article-nav-prev') != -1:
      pattern = re.compile(r'http://www.jb51.net/\S*html')
      pageurl = pattern.findall(str(spanclass))
      for i in pageurl:
        #print i
        getthenextpage(i)

getthenextpage(baseurl)

print "the end!"
file.close()

最后,对和我以前刚开始做网站的同学说下,图片命名的话最好是用数字形式或者是英文、拼音的形式,要不然到最后想修改的话就麻烦了,所以最好就是从刚开始就养成好的习惯,用正确的命名规范来问文章、图片来命名,这样就会好很多。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索python
采集QQ截图文件
商客采集器截图、python网络数据采集、python 网页截图、python 采集、python 截图,以便于您获取更多的相关知识。

时间: 2025-01-29 21:46:36

python采集博客中上传的QQ截图文件_python的相关文章

值得关注的10个python语言博客(转)

大家好,还记得我当时学习python的时候,我一直努力地寻找关于python的博客,但我发现它们的数量很少.这也是我建立这个博客的原因,向大家分享我自己学到的新知识.今天我向大家推荐10个值得我们关注的python博客,这些博客的博主都会定期的更新而且他们的文章都很不错.下面是博客列表:   1.首先第一个肯定是毋庸置疑的Planet Python这是最出名的python博客其中之一,快去看看,我希望你能找到对你有用的东西,昨天它还更新了呢! 2.第二个博客是lucumr,博主是flask的创始

高级教师博客上传700余张淫秽图片被批捕

去年12月16日,北京市海淀刑侦支队接市公安局网监处转发线索称,佐某的博客中存有大量淫秽图片,随后警方在一宿舍内将其抓获.记者昨天获悉,佐某因涉嫌传播淫秽物品罪被批准逮捕. 接到举报后,民警调查发现IP地址为海淀区一附属中学的宿舍楼836室,民警赶到该地将嫌疑人佐某抓获.据了解,佐某是宁夏一中学的高级教师,曾获得优秀党员等光荣称号.因为该校与北京一知名附属中学是友好学校,佐某负责带领宁夏的学生到该附属中学进行交流学习,交流时间从2009年11月21日开始,佐某被安排在该附中宿舍楼836房间居住.

打算写技术博客前传之家的寻找

尝试了多个博客最后安家在ITPUB,觉得这个界面简单,打开速度也可以,知名度也行,其它博客或多或少有自己不满意的地方,so就这个了,之后打算每天一篇博客,希望大家多多支持!      另外,觉得每个博客都有一个共同的缺点就是不能直接粘贴图片,这个对于写博客来说有点麻烦,我这人最怕这种麻烦事了...博客发展发展估计以后可以直接粘贴图片了

解决.net项目中上传的图片或者文件太大无法上传问题_实用技巧

最近做项目的时候  用户提出要上传大图片  一张图片有可能十几兆  本来用的第三方的上传控件  有限制图片上传大小的设置  以前设置的是2M  按照用户的要求  以为直接将限制图片上传大小的设置改下就可以了  但是当上传大图片的时  总是异常: 错误消息:超过了最大请求长度 解决方案: 错误原因:asp.net默认最大上传文件大小为4M,运行超时时间为90S. 修改web.config中配置 <configuration> <system.web> <httpRuntime

Mac QQ截图保存在哪里?苹果电脑Mac qq截图文件路径设置技巧图解

  由于Mac系统自带的截图不方便,很多童鞋都是用QQ Mac版的截屏(快捷键command+control+A),QQMac版的截屏图片保存在哪儿呢?可不可以像Windows版本一样设定保存路径呢?当然是可定的.Mac QQ截图保存你需要的位置,你可以在偏好设置当中设定路径. 首先.随便打开一个聊天窗口,让Mac OS系统左上角的导航栏显示 QQ 的各种功能界面. 第二.如下图所示,点击 "QQ",进入"偏好设置"菜单当中,如下图所示界面: 第三步.如下图所示的

python实现博客文章爬虫示例_python

复制代码 代码如下: #!/usr/bin/python#-*-coding:utf-8-*-# JCrawler# Author: Jam <810441377@qq.com> import timeimport urllib2from bs4 import BeautifulSoup # 目标站点TargetHost = "http://adirectory.blog.com"# User AgentUserAgent  = 'Mozilla/5.0 (X11; Lin

python实现博客自动刷点击脚本

    #A Auto-Visit Web Site Tool import urllib import time import random print "Auto Click the WebPage for Click-Num..." for i in range(30): fs = urllib.urlopen(r'http://blog.csdn.net/wangyaninglm/article/details/7243970') print 'The ', i, 'time

ASP.NET中上传并读取Excel文件数据

asp.net|excel|上传|数据 在CSDN中,经常有人问如何打开Excel数据库文件.本文通过一个简单的例子,实现读取Excel数据文件.首先,创建一个Web应用程序项目,在Web页中添加一个DataGrid控件.一个文件控件和一个按钮控件. <INPUT id="File1" type="file" name="File1" runat="server"><asp:Button id="B

.net项目中上传的图片或者文件太大 无法上传的问题怎么解决

最近做项目的时候 用户提出要上传大图片 一张图片有可能十几兆 本来用的第三方的上传控件 有限制图片上传大小的设置 以前设置的是2M 按照用户的要求 以为直接将限制图片上传大小的设置改下就可以了 但是当上传大图片的时 总是异常: 错误消息:超过了最大请求长度 解决方案: 错误原因:asp.net默认最大上传文件大小为4M,运行超时时间为90S. 修改web.config中配置 <configuration> <system.web> <httpRuntime useFullyQ