读取指定网页,指定标签的内容,即提取网页上我想要的信息

问题描述

请问下读取HTML页面指定标签的内容,现在发现所有的内容都填充在div标签里面的,唯一的区别是我需要的信息的div的css里面定义的class和不需要的不一样,类似 <div class="xuyao">和<div class="buxuyao"> 现在怎么办。 顺便问下读取网页上指定标签的内容用什么工具比较好 谢谢了。希望在周一前能得到答案。周iyizhengshi开工。谢谢先了

解决方案

两种办法:1、自己写,用正则去匹配2、用html解析库,推荐jsoup

时间: 2024-09-24 13:32:34

读取指定网页,指定标签的内容,即提取网页上我想要的信息的相关文章

selenium 自动化 获取这个网页的标签及其内容

问题描述 selenium 自动化 获取这个网页的标签及其内容 browser.find_element_by_id("").text 是获取这个内容的,但是我想获取这个网站包括div li什么的 应该怎么做? 解决方案 selenium 获取网页所有链接---------------------- 解决方案二: 怎么保存html就行

求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做

问题描述 求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做 求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做 解决方案 你会什么语言就用什么语言.如果你什么语言都不会,那么也可以用什么"火车头"之类的傻瓜工具来抓取. 解决方案二: 把文档解析成一颗DOM树,获得里面所有的a标签节点,获得节点内文本节点,大部分需要都有相应的生成解析和操作DOM树的工具 解决方案三: 用正则表达式把连接全部匹配出来 什么语言都可以 解决方案四: Python 爬虫 可以

php 去掉指定的html标签及内容

string strip_tags ( string str [, string allowable_tags] ) 弊端 : 这个函数只能保留想要的html标签,就是参数string allowable_tags. 在yizero的评论中我知道了这个函数的参数allowable_tags的其他的用法.  代码如下 复制代码 strip_tags($source, "); 去掉所以的html标签. strip_tags($source, '<div><img><em

c#代码-C#如何利用正则表达式读取网页指定内容

问题描述 C#如何利用正则表达式读取网页指定内容 C#如何利用正则表达式读取网页指定内容,求高手指点,直接上传源代码也行,非常感谢帮助

在ASP.NET2.0里打印网页指定的内容(比如打印网页里的一个Table)

原文:在ASP.NET2.0里打印网页指定的内容(比如打印网页里的一个Table)打印指定内容: <html> <head> <script   type= "text/javascript "   language= "javascript "> function   printPage()   {   var   newWin   =   window.open( 'about:blank ', ' ', ' ');   va

js print打印网页指定区域内容的简单实例_javascript技巧

实例如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Co

如何在指定的地方插入html内容和文本内容

 本文为大家介绍个小技巧可以在指定的地方插入html内容和文本内容,示例如下,感兴趣的朋友可以参考下 dhtml提供了两个方法来进行添加,insertAdjacentHTML和insertAdjacentText  insertAdjacentHTML方法:在指定的地方插入html标签语句.  原型:insertAdjacentHTML(swhere,stext)  参数:  swhere:指定插入html标签语句的地方,有四种值可以用:  1.beforeBegin:插入到标签开始前  2.a

解决方案-截取指定长度的富文本内容可能会出现页面被凌乱的问题

问题描述 截取指定长度的富文本内容可能会出现页面被凌乱的问题 5C freemaker页面中截取指定长度的字符串,超出长度的部分用-替代 <#if topic.title?length lt 35> ${topic.title}<#else> ${topic.title?substring(035)}... </#if> 如果数据库中topic.title的内容不是纯文本,而是富文本(含有很多html标签的文本)内容,按指定 长度截取的话,就有可能会破坏富文本的html

jquery实现在网页指定区域显示自定义右键菜单效果_jquery

本文实例讲述了jquery实现在网页指定区域显示自定义右键菜单效果.分享给大家供大家参考.具体如下: 这是一个jquery实现的网页右键菜单效果,与其它自定义的右键菜单不同之处在于,本菜单只在指定区域内才有效,若超出指定区域的话,点击右键后显示的仍是浏览器的右键菜单.运行效果后,请在橘色区域内点击鼠标右键,会弹出一个带图标的自定义右键菜单,和浏览器的右键菜单完全不一样哦! 运行效果截图如下: 在线演示地址如下: http://demo.jb51.net/js/2015/jquery-web-ar