Python简易爬虫，爬取斗鱼颜值美女！！

代码简单用作初学Python,只要运行脚本图片自动下载根据，斗鱼网页更新而更新！！
QQ学习交流群127591054
JackChiang

Python版本3.5

<1>版本1，效果如图片，存在问题不能给图片加自己的名字，代码不够灵活。版本2解决这个问题

#coding=utf-8
#爬取斗鱼颜值妹子图片
import re
import urllib
import time

#定义为方法
def getHTML(url):
    page = urllib.urlopen(url)
    html=page.read()
    return html

#开始根据链接爬图片保存数据
def getImage(html):
    imagelist = re.findall(r'data-original="(.*?\.jpg)"',html);
    print imagelist
    x=0
    for imageone in imagelist:
        print('开始下载:%s'%imageone)
        urllib.urlretrieve(imageone,'C:\\Users\\JackChiang\\Pictures\\PythonData\\%d.jpg'%x)
        x+=1
        time.sleep(0.5)
fileimg = getHTML('https://www.douyu.com/directory/game/yz')
print fileimg
getImage(fileimg)

#斗鱼颜值地址：https://www.douyu.com/directory/game/yz

效果图~~~

<2>版本2更灵活一些

#coding=utf-8
#爬取斗鱼颜值妹子图片
import re
import urllib.request
import time
from bs4 import BeautifulSoup

#定义为方法
def getHTML(url):
    page = urllib.request.urlopen(url)
    html=page.read()
    return html

#开始根据链接爬图片保存数据
def getImage(html):
    #创建对象,传入网页数据
    soup1 = BeautifulSoup(html)
    soupL = soup1.select('#live-list-contentbox')
    print(str(soupL))
    strone = str(soupL)
    soup2 = BeautifulSoup(strone)
    soupLi = soup2.select('li')
    for soupLione in soupLi:
            #获取单个li标签获取数据
           soupone = BeautifulSoup(str(soupLione))
           name = soupone.a['title']
           print('开始下载:%s'%name)
           url = soupone.img['data-original']
           try:
               urllib.request.urlretrieve(url,'C:\\Users\\JackChiang\\Pictures\\PythonData\\%s.jpg'%name)
               print(url)
           except OSError:
               print('出现异常,地址为：%s'%url)
           finally:
               time.sleep(0.5)

fileimg = getHTML('https://www.douyu.com/directory/game/yz')
getImage(fileimg)

#斗鱼颜值地址：https://www.douyu.com/directory/game/yz

代码运行状态

效果图

后续版本会有更好效果！！

时间： 2024-11-03 08:03:56

Python简易爬虫，爬取斗鱼颜值美女！！的相关文章

使用Python多线程爬虫爬取电影天堂资源_python

最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. 先来简单介绍一下,网络爬虫的基本实现原理吧.一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点.这样不断地循环,一直到获得你想得到的所有的信息爬虫的任务

python制作爬虫爬取京东商品评论教程_python

本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D共18个尺寸,以及超过700条的购买评论. 京东商品评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论的信息.因此我们需要先找到存放商品评论信息的文件.这里我们使用Chrome浏览器里的开发者工具进行查找. 具体方法是在商品详情页点击鼠标右键,选择检查,在弹出的开发者工具界

python-Python爬虫爬取网页源代码为空，求问原因&amp;amp;解决方案（向）

问题描述 Python爬虫爬取网页源代码为空,求问原因&解决方案(向) 代码如下:import urllibimport urllib2import re url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'req = urllib2.Request(url)try: html = urllib2.urlopen(req).read() print htmlexcept urllib2.HTTPError e: print '

[python] 常用正则表达式爬取网页信息及分析HTML标签总结

这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫.BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析. 涉及内容如下: 常用正则表达式爬取网页信息及HTML分析总结 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规

求助大神，爬虫爬取京东评论数据爬一小部分（大概100条评论）就爬不到评论了，返回空值了

问题描述求助大神,爬虫爬取京东评论数据爬一小部分(大概100条评论)就爬不到评论了,返回空值了 python 爬取评论数据,爬到一百多条评论,就返回空值了,无法继续爬下去了解决方案用fiddler调试下,看下是不是京东有限制.比如让你过多少时间再访问,或者要你输入验证码. 解决方案二: 如果要爬京东评论,已经有大牛写出很成熟的代码了,推荐大家去看看,专门讲了怎么突破京东的限制:http://blog.csdn.net/youmumzcs/article/details/51396283

Node.js环境下编写爬虫爬取维基百科内容的实例分享_node.js

基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中.这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务. 思路二(origin:cat):按分类进行抓取.注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取

java-过滤Heritrix爬虫爬取的内容时的异常

问题描述过滤Heritrix爬虫爬取的内容时的异常 java.lang.NullPointerException at com.luceneheritrixbook.extractor.pconline.mobile.ExtractPconlineMoblie.extract(ExtractPconlineMoblie.java:121) at com.luceneheritrixbook.extractor.Extractor.traverse(Extractor.java:208) at

Python爬虫爬取美剧网站

一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了.但是,作为一个宅diao的我又怎甘心没剧追呢,所以网上随便查了一下就找到一个能用迅雷下载的美剧下载网站[天天美剧],各种资源随便下载,最近迷上的BBC的高清纪录片,大自然美得不要不要的. 虽说找到了资源网站可以下载了,但是每次都要打开浏览器,输入网址,找到该美剧,然后点击链接才能下载.时间长了就觉得过程好繁琐,而且有时候网