scrapy python-为什么我用scrapy抓页面时,<strong>标签里面的字没有?代码如下

问题描述

为什么我用scrapy抓页面时,<strong>标签里面的字没有?代码如下

from scrapy.contrib.spiders import CrawlSpider
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.selector import HtmlXPathSelector
from kkk1.items import Kkk1Item
from scrapy.http import Request
from scrapy.http import HtmlResponse
import re
import math
class DmozSpider(CrawlSpider):
name = "kkk1"
allowed_domains = ['item.jd.com']
start_urls = [
"http://item.jd.com/1130480.html"]
def parse(self, response):
item = Kkk1Item()
sel = Selector(response)
item['gid']=sel.select("//div[@class='w']/div[@class='right']/div[@id='product-detail']/div[@id='product-detail-1']/ul/li[2]/text()").extract()
item['name'] = sel.select("id('name')/h1/text()").extract()
item['brand'] = response.xpath("//div[@class='w']/div[@class='right']/div[@id='product-detail']/div[@id='product-detail-1']/ul/li[3]/a/text()").extract()
item['price']=sel.select("//*[@id='jd-price']").extract()
#item['price']=sel.select("//*[@id='jd-price']/text()").extract()
return item

控制台打出来的:
{
'brand': [u'u5c0fu7c73uff08MIuff09'],
'gid': [u'u5546u54c1u7f16u53f7uff1a1130480'],
'name': [u'u5c0fu7c73 u7ea2u7c731s u79fbu52a83Gu624bu673auff08u91d1u5c5eu7070uff09 TD-SCDMA/GSM u53ccu5361u53ccu5f85 u79fbu52a8u5408u7ea6u7248uff08u4e0du542bu5408u7ea6u8ba1u5212uff09']
'price': [u'《strong class="p-price" id="jd-price"></strong》'],
'salereminder': []}

u《strong class="p-price" id="jd-price"></strong》'里面的价格怎么没有?求大神,感激不尽,新手,已经困扰我好几天了,就是没办法啊,

时间: 2024-09-14 20:19:08

scrapy python-为什么我用scrapy抓页面时,&amp;lt;strong&amp;gt;标签里面的字没有?代码如下的相关文章

Scrapy response 请求200 但是返回的页面不完整

问题描述 Scrapy response 请求200 但是返回的页面不完整 python 爬虫抓取数据时,请求状态码200,但是返回的页面信息不完整 解决方案 一般这种情况是页面本身是异步加载的,所以你拿到了200,但是页面内容其实是ajax等异步填充进去的数据.目前这种页面你需要用selenium等带有webdriver的模块来抓取

Python网络爬虫2 ---- scrapy爬虫架构介绍和初试

原文出处:http://my.oschina.net/dragonblog/blog/173290 上一篇文章的环境搭建是相对于手动操作的过程,而大家可能对这个疑问是什么是scrapy?为什么要用scrapy?下面主要是对这两个问题的简要回答. 请尊重作者的工作,转载请注明出处http://my.oschina.net/dragonblog/blog/173545 相信大家在百度或google上一搜索scrapy都能够找到一大堆的结果,由于我本人对scrapy没有太了解,因此这里我也是引用了网络

零基础写python爬虫之使用Scrapy框架编写爬虫_python

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便.使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目 明确目标(Item

【Python爬虫8】Scrapy 爬虫框架

安装Scrapy 新建项目 1定义模型 2创建爬虫 3优化设置 4测试爬虫 5使用shell命令提取数据 6提取数据保存到文件中 7中断和恢复爬虫 使用Portia编写可视化爬虫 1安装 2标注 3优化爬虫 4检查结果 使用Scrapely实现自动化提取 1.安装Scrapy 用pip命令安装Scrapy:pip install Scrapy wu_being@ubuntukylin64:~/GitHub/WebScrapingWithPython$ scrapy -h Scrapy 1.3.0

scrapy爬虫不能自动爬取所有页面

问题描述 scrapy爬虫不能自动爬取所有页面 学习scrapy第三天,在爬取wooyun白帽子精华榜的时候,不能爬取所有的页面. items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class Wooyu

splinter-使用Python的Splinter模块打开页面时遇到了问题。

问题描述 使用Python的Splinter模块打开页面时遇到了问题. 各位大大们好: 我是一个刚接触splinter的新手,我在使用splinter时遇到了一些问题,自己试图解决未能成功,因此想要向大大们请教一下. 我在使用browser.visit(url)时,程序报错,我分情况总结了一下:如果url是"http://www.baidu.com"这样正确的地址,会报错httplib.CannotSendRequest,若为"http://www.baidu.com/&qu

jsoup-网页抓取时,如何判断一个页面是导航页面,还是内容页面

问题描述 网页抓取时,如何判断一个页面是导航页面,还是内容页面 在做网页抓取的时候,我想先判断这个网页是导航页面(目录页面),还是内容页面 例如 http://sky.news.sina.com.cn/ 这是一个导航页面 http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面 可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等 谢谢大家,请给点思路

关于数据抓取时网页编码各不相同的问题

问题描述 关于数据抓取时网页编码各不相同的问题 最近在学习数据抓取的一些技能,抓取指定数据,网页编码都是不一样的, 有没有方法写个公用的类或者对象来处理,求代码 解决方案 python 判断网页编码的方法: import urllib f = urllib.urlopen('http://outofmemory.cn/').info() print f.getparam('charset') 2 import chardet 你需要安装一下chardet第3方模块判断编码 data = urll

XMLHTTP GetHTML页面时的中文乱码之完全客户端Script解决方案

xml|解决|客户端|页面|中文|中文乱码 常有人说,他们在使用XMLHTTP过程中,总是为中文乱码的问题烦恼.本人查阅了一些资料,结果令我失望,大家都是使用ASP服务器端技术解决该问题. 先分析一下为何会出现中文乱码的问题.原因很简单:XMLHTTP得到Response时假定Response是UTF8编码的,它把含GB2312编码的HTML当成UTF8格式,因此,出现了中文乱码. 那么,除了使用ASP服务器端脚本技术外,就没有客户端的解决办法吗?答案是:有! 本人使用VBScript客户端脚本