scrapy-关于python爬虫问题,我想我走错思路了。

问题描述

关于python爬虫问题,我想我走错思路了。

这是我代码

 import scrapy
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors import LinkExtractor
class Myspider(CrawlSpider):
    name="baidu"
    allowed_domains=['yuedu.baidu.com']
    start_urls=['http://yuedu.baidu.com']

    rules=(Rule(LinkExtractor(allow=('http://yuedu.baidu.com/book/list/15002',)),callback=('parse')),)
    def parse(self,response):
        self.log=('hi this is an item page! ~~~~~~~~~~~~~~~~~%s'% response.url)
        print self.log
        item=[]
        item=response.xpath('//span[@class="title"]/text()').extract()
        print item

然后运行scrapy crawl baidu

看见了没hi this is an item page 下面是【】空的 搞了2小时了 怎么办啊 按照scrapy官方文档来的 不知道怎么错了 希望大神们解答!!!感激!

解决方案

为什么抓取class="title"里面的文字 抓去不了???

解决方案二:

如果这个页面shiajax异步返回的,那么你抓取的结果就可能为空。因为你抓取的时候内容还没返回。所以为空。

解决方案三:


你看官方文档也没返回就直接抓了

解决方案四:

我知道了,在start_urls上就应该填“http://yuedu.baidu.com/book/list/15002” 这样抓取下来的 就对罗 还有 谢谢那位大哥 (上面评论的那位~~)

时间: 2024-09-21 21:04:30

scrapy-关于python爬虫问题,我想我走错思路了。的相关文章

【Python爬虫8】Scrapy 爬虫框架

安装Scrapy 新建项目 1定义模型 2创建爬虫 3优化设置 4测试爬虫 5使用shell命令提取数据 6提取数据保存到文件中 7中断和恢复爬虫 使用Portia编写可视化爬虫 1安装 2标注 3优化爬虫 4检查结果 使用Scrapely实现自动化提取 1.安装Scrapy 用pip命令安装Scrapy:pip install Scrapy wu_being@ubuntukylin64:~/GitHub/WebScrapingWithPython$ scrapy -h Scrapy 1.3.0

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

来源:http://www.cnblogs.com/wanghzh/p/5824181.html 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感.   Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地

零基础写python爬虫之使用Scrapy框架编写爬虫_python

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便.使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目 明确目标(Item

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍

        前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更为广泛使用的Python爬虫框架是--Scrapy爬虫.这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章.         官方 Scrapy  :http://scrapy.org/         官方英文文档:http://doc.scrapy.or

使用python scrapy框架写爬虫如何爬取搜狐新闻的参与人数?

问题描述 使用python scrapy框架写爬虫如何爬取搜狐新闻的参与人数? URL如下:http://quan.sohu.com/pinglun/cyqemw6s1/442631551 参与人数该如何爬取,找不到切入点,新手一头雾水-- 非常感谢!! 解决方案 这个是可能异步ajax返回的,所以需要用selenium等webdriver来处理 解决方案二: http://www.shenjianshou.cn/

python 爬虫教程

转载http://blog.csdn.net/freeking101/article/details/62893343 爬虫入门初级篇 IDE 选择 PyCharm(推荐).SublimeText3.VS2015.wingIDE 装python2还是python3 python社区需要很多年才能将现有的模块移植到支持python3. django web.py flask等还不支持python3.所以推荐安装python2 最新版. Windows 平台 从 http://python.org/

Python爬虫一(入门综述、基础)

转载:静觅 » Python爬虫入门一之综述 转载:静觅 » Python爬虫入门二之爬虫基础了解 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫更高级的功能 1.Py

Python爬虫入门一之综述

大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Python版本:2.7,Python 3请另寻其他博文. 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知

Python爬虫:把廖雪峰的教程转换成PDF电子书

写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 Python 教程 爬下来做成 PDF 电子书方便大家离线阅读. 开始写爬虫前,我们先来分析一下该网站1的页面结构,网页的左侧是教程的目录大纲,每个 URL 对应到右边的一篇文章,右侧上方是文章的标题,中间是文章的正文部分,正文内容是我们关心的重点,我们要爬的数据就是所有网页的正文部分,下方是用户的