python 爬虫 怎么获取标签中的注释?我用得lxml解析html

问题描述

python 爬虫 怎么获取标签中的注释?我用得lxml解析html
 <span>当前第9127页&nbsp;<!--共136904条-->&nbsp;&nbsp;</span>

怎么才能获取注释里的值呢?

tree=etree.HTML(page)
pagenumber=tree.xpath(xpathStr)
for i in pagenumber:
           totalpage=filter(str.isdigit,str(i))

解决方案

注释不属于xml格式了,你拿到span节点后获取它的内容,然后用字符串解析来获取注释。

解决方案二:

html标签及注释
Python:用lxml解析HTML

时间: 2025-01-19 12:33:26

python 爬虫 怎么获取标签中的注释?我用得lxml解析html的相关文章

python 抓包 获取网页中viewstate参数和eventvalidation的值

问题描述 python 抓包 获取网页中viewstate参数和eventvalidation的值 安徽水旱情信息网http://shangqing.wswj.net/TYFW/InfoQuery/HeDao.aspx,里面有 各个站点的水情信息,选好条件后查询,每个站点的信息大概有2000多页,之前写了一个Python程序(通过httplib,pyquery)可以自动下载这些数据.但问题是:比如要下载宜昌站的数据,点击查询后进入详情页即'...HeDao1.aspx',随便点击一个页码,然后通

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

        前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作.希望文章对你有所帮助~ 源代码 # coding=utf-8 """ Created on 2015-09-04 @author: Eastmount """ i

注释行及空行-如何才能实现python文件读取中对注释行的识别

问题描述 如何才能实现python文件读取中对注释行的识别 本人有一个任务,要求用python读取某一文件中的注释行,空行和编码行,哪位大神知道怎么做,求教 解决方案 主要是按行读取,然后就是写出判断逻辑来勘测行是否为注视行,空行,编码行 解决方案二: 主要是按行读取,然后就是写出判断逻辑来勘测行是否为注视行,空行,编码行 解决方案三: python读取文件指定行(linecache模块)python读取文件指定行(linecache模块)python读取文件末尾N行 解决方案四: 学习一下!!

[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

        最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话:那么动态生成的信息页面,如Ajax.JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了.所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用. 一. 介绍        PhantomJS        Pha

javascript-一个获取div中样式的问题

问题描述 一个获取div中样式的问题 获取标签中的margin-top的值,使用document.getElementsByTagName("div").style.marginTop(有遍历)但只能得到内嵌样式的值,内联部分的值不能得到,具体代码如下: <meta http-equiv="content-type" content="text/html;charset=utf-8"> <style> .mt1{margi

javascript-Python 爬虫如何获取onclick(非url链接)之后网页?

问题描述 Python 爬虫如何获取onclick(非url链接)之后网页? Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS Tripadvisor 网站

jquery获取URL中参数解决中文乱码问题的两种方法

 从A页面通过url传参到B页面时,获取URL中参数出现中文乱码问题,解析url参数的正确方法如下,感兴趣的朋友可以参考下 从A页面通过url传参到B页面时,解析url参数可以用下面两种方法:  方法一:正则分析法  代码如下: function getQueryString(name) {  var reg = new RegExp("(^|&)" + name + "=([^&]*)(&|$)", "i");  var

[工具类]获取url中参数列表

写在前面 在项目中经常用到解析url中参数的逻辑,今天先下载就自己封装了一个方法,方便以后使用的时候,信手拈来.当然这里给出的方法是针对常见的url参数类型的,对于重写url,或者路由格式的不考虑. c#方法 /// <summary> /// 获取url中参数 /// </summary> /// <param name="url">要解析的url</param> /// <param name="baseUrl&quo

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

来源:http://www.cnblogs.com/wanghzh/p/5824181.html 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感.   Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地