问题描述
- 关于python爬虫问题,我想我走错思路了。
-
这是我代码import scrapy from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.contrib.linkextractors import LinkExtractor class Myspider(CrawlSpider): name="baidu" allowed_domains=['yuedu.baidu.com'] start_urls=['http://yuedu.baidu.com'] rules=(Rule(LinkExtractor(allow=('http://yuedu.baidu.com/book/list/15002',)),callback=('parse')),) def parse(self,response): self.log=('hi this is an item page! ~~~~~~~~~~~~~~~~~%s'% response.url) print self.log item=[] item=response.xpath('//span[@class="title"]/text()').extract() print item
看见了没hi this is an item page 下面是【】空的 搞了2小时了 怎么办啊 按照scrapy官方文档来的 不知道怎么错了 希望大神们解答!!!感激!
解决方案
为什么抓取class="title"里面的文字 抓去不了???
解决方案二:
如果这个页面shiajax异步返回的,那么你抓取的结果就可能为空。因为你抓取的时候内容还没返回。所以为空。
解决方案四:
我知道了,在start_urls上就应该填“http://yuedu.baidu.com/book/list/15002” 这样抓取下来的 就对罗 还有 谢谢那位大哥 (上面评论的那位~~)
时间: 2024-09-21 21:04:30