正则表达式 获取标签内的文字 如<div>文字</div>

问题描述

<div class="hdwiki_tmml"><a class=" &nbsp;FCK__AnchorC" name="1">是大家是否</a></div><div class="hdwiki_tmml"><a name="2">士大夫士大夫</a></div>我想要的结果是:1.是文字内容是大家是否士大夫士大夫2。是name的值12麻烦帮忙解决下 java的后台 问题补充:飞雪无情 写道

解决方案

引用http://www.oschina.net/p/jsouposchina推荐,不知道好不好用
解决方案二:
看了我上面写的那个分开的正则表达式,就是一个匹配内容,一个匹配属性值的。那么下面这个用一个正则表达式匹配他们两个你就好理解了!public static void main(String[] args) {String source="<div class="hdwiki_tmml"><a class=" &nbsp;FCK__AnchorC" name="1">是大家是否</a></div><div class="hdwiki_tmml"><a name="2">士大夫士大夫</a></div> ";StringBuilder resultComment=new StringBuilder();StringBuilder resultName=new StringBuilder();System.out.println("=======开始匹配========");String patternStrs="(<div class="hdwiki_tmml"><a.+?)name="(.+?)">(.+?)(</a></div>)";Pattern pattern=Pattern.compile(patternStrs);Matcher matcher=pattern.matcher(source);while(matcher.find()){resultName.append(matcher.group(2)+"n");resultComment.append(matcher.group(3)+"n");}System.out.println("=======标签内内容=======");System.out.println(resultComment.toString());System.out.println("=======name属性值=======");System.out.println(resultName.toString());}一个正则表达式搞定,节省了代码!
解决方案三:
没劲var result1=[],result2=[]var s='<div class="hdwiki_tmml"><a class=" &nbsp;FCK__AnchorC" name="1">是大家是否</a></div> <div class="hdwiki_tmml"><a name="2">士大夫士大夫</a></div> ' var reg=/(<(w+)s?.*?>)([^<].*?[^>])(</2>)/ig var match=s.match(reg)var reg1=/name="(.*?)"/var reg2=/>(.*?)</for(i=0;i<match.length;i++){reg1.test(match[i])result1.push(RegExp.$1)reg2.test(match[i])result2.push(RegExp.$1)}alert(result1)alert(result2)
解决方案四:
正则好久不用手都生了,不过终于把代码写出来了。测试通过。public static void main(String[] args) {String source="<div class="hdwiki_tmml"><a class=" &nbsp;FCK__AnchorC" name="1">是大家是否</a></div><div class="hdwiki_tmml"><a name="2">士大夫士大夫</a></div> ";StringBuilder result=new StringBuilder();System.out.println("=======开始匹配文字内容========");String patternStrs="(<div class="hdwiki_tmml"><a.+?>)(.+?)(</a></div>)";Pattern pattern=Pattern.compile(patternStrs);Matcher matcher=pattern.matcher(source);while(matcher.find()){result.append(matcher.group(2)+"n");}System.out.println(result.toString());System.out.println("=======开始匹配name属性值========");String patternName="(<div class="hdwiki_tmml"><a.+?)name="(.+?)">(.+?</a></div>)";pattern=Pattern.compile(patternName);matcher=pattern.matcher(source);result=result.delete(0, result.length());while(matcher.find()){result.append(matcher.group(2)+"n");}System.out.println(result.toString());}全当复习一次了!

时间: 2024-11-04 11:28:51

正则表达式 获取标签内的文字 如&amp;lt;div&amp;gt;文字&amp;lt;/div&amp;gt;的相关文章

js-如果不用jquery,怎么用JS获取网页中指定标签内的选中内容?

问题描述 如果不用jquery,怎么用JS获取网页中指定标签内的选中内容? 网页有一个div,里面有些文字,鼠标选中其中一部分字,怎么能感知这一事件,然后返回选中内容. 解决方案 我在贴吧也看到类似的问题,是同一个吗? <!--支持IE9+ Firefox Chrome--> <p>这是一段测试文字</p> <script type='text/javascript'> function getSlct(){//获取选中文字 return getSelect

python-请问用BeautifulSoup如何获取p标签内的值

问题描述 请问用BeautifulSoup如何获取p标签内的值 从网上爬下来了一道数学题,不知道该怎样获取里面的值了 soup = BeautifulSoup(problem_content, 'html.parser') # 这个problem_content是个从网上爬下来的数学题,里面包含很多的HTML标签 # print soup # 全部是乱码,网上找资料说是没有xa0这个编码 # print soup.prettify().replace(u'xa0', '') # 安装文档形式输出

如何通过坐标获取屏幕内的文字!!!!!!!!!

问题描述 例如:通过坐标定位到网页的某个区域,获取区域内的文字,这个文字是跳动的,而且这个网站需要登陆后才能进入! 解决方案 解决方案二:你管他动不动,不出意外应该是个移动的DIV,只要能从HTML里找到这个DIV管他动到哪里解决方案三:引用1楼xdashewan的回复: 你管他动不动,不出意外应该是个移动的DIV,只要能从HTML里找到这个DIV管他动到哪里 有没有通过坐标定位的方法直接获取到,通过解析html内的内容,感觉效率太差了.

html-JQuery如何获取以及修改DD标签内HTML元素

问题描述 JQuery如何获取以及修改DD标签内HTML元素 您已选择: 假如我这个dd标签内有HTML元素,我想动态的获取或编辑该DD标签内HTML元素,请问jQuery能实现吗?我用.html()试过,val()试过,都没有获取成功,能不能不从他上级元素入手直接对DD标签进行操作,求帮助 解决方案 原来是自己在页面加载的时候将其清空了所以获取不到元素.简直极度不细心.. 解决方案二: jquery 获取元素本身HtmljQuery获取各种html标签的值jquery获取标签里的值html,v

java正则表达式获取指定HTML标签的指定属性值且替换的方法_java

实例如下: public static String repDomain(String source, String domain, String element, String attr) { String img = ""; Pattern p_image; Matcher m_image; String regEx_img = "<" + element + "[^<>]*?\\s" + attr + "=['\

JS 获取HTML标签内的子节点的方法_javascript技巧

子节点的个数: document.getElementById("id").childNodes.length 注意: 标签开/闭合算2个节点 第几个子几点: document.getElementById("id").childNodes[n] 示例: 这里是 length-4 处,margin-left:20px 输出:length=8 实例: <div id="page_kx" style="text-align: cent

网页开发-c# webbrowser 获取网页内的超连接

问题描述 c# webbrowser 获取网页内的超连接 大神们看下面代码,是webbrowser的,上面的点击可以执行,但是没办法获取到对应文字的链接: if (webBrowser1.Document.All[i].OuterText == textBox1.Text) { webBrowser1.Document.All[i].InvokeMember("click"); } 我想获得i文字的超连接要怎么获得呢? object url1 = webBrowser1.Documen

用python Beautifulsoup提取html标签下内容时,标签内的子标签内容如何提取?

问题描述 用python Beautifulsoup提取html标签下内容时,标签内的子标签内容如何提取? 比如要提取一个div标签下的内容 但是内容中包含了图片地址,网页链接等子标签,怎么把 这些内容提取出来? 解决方案 正则表达式 提取 html 标签的内容 解决方案二: 一样的,根据标签类型,属性等定位进一步处理获取数据

正则表达式 html标签匹配

问题描述 正则表达式 html标签匹配 8C 有这样一段html标签<p style="""">aaa**<p>bbb</p>ccc<p>ddd</p>eee</p>**<p>ffff</p>我想最终得到的是第一行中从最开始p标签开始到最末端p标签结束,其中可能还包括多个成对出现的p标签例,但不包括下一行的p标签,应该怎样写呢?我这样写:<p.*?(<p>