请教如何正则提取html信息

问题描述

请教各位高手个问题,我想要提取HTML帖子内容,非常感谢ostrichmyself大哥帮我解决了好多问题,但是还在有些地方出问题,比较急所以再发帖求助@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@<pclass="author"><strong>admin</strong>发表于2009-5-1416:49</p><h3>提取帖子内容</h3>“提取这句话”<br/><br/>“1提取作者admin:"<strong>(.+?)</strong>"2提取标题“提取帖子内容”:"<strong>(.+?)</strong>"3提取时间2009-5-1416:49:"发表于(.+?)</p>"我想把这三个正则组合在一起用group函数读出简单的:(<strong>(.+?)</strong>)(<strong>(.+?)</strong>)(发表于(.+?)</p>)会出错,因为group嵌套()会报错,不知道该如何写?还想问一下提取作者时admin时<pclass="author"><strong>admin</strong>要把<pclass="author">也写进去该怎么写?下面的程序不输出任何结果importjava.util.*;importjava.util.regex.Matcher;importjava.util.regex.Pattern;publicclassclasstest{publicstaticvoidmain(String[]args){test1();}publicstaticvoidtest1(){Stringsrc="<strong>admin</strong>"+"发表于2009-5-1416:49</p><h3>提取帖子内容</h3>";Stringregex="<strong>(.*)</strong>(.*)</p><h3>(.*)</h3>";Patternpattern=Pattern.compile(regex,Pattern.DOTALL);Matchermatcher=pattern.matcher(src);while(matcher.find()){System.out.println(matcher.group(1).trim());System.out.println(matcher.group(2).trim());System.out.println(matcher.group(3).trim());break;}}}

解决方案

解决方案二:
不会吧
解决方案三:
飘过~
解决方案四:
我这边可以呀!我在Eclipse下面编译的.还想问一下提取作者时admin时<pclass="author"><strong>admin</strong>要把<pclass="author">也写进去该怎么写?下面的程序不输出任何结果写进去做什么呢?你提取出来自己加一个<pclass="author">头就行了.或者你再搞一个Group提取<pclass="author">这些Group就变成四个了
解决方案五:
有个htmlparser包,下载下看看,可以省去编写正则表达式的烦恼
解决方案六:
多谢高手ostrichmyself,真不好意思,我又新建了一个Java工程跑通了,但是在原来的环境下的确不输出,正则表达挺麻烦的看网上的资料有些挺复杂的,上面我问的<pclass="author"><strong>admin</strong>要把<pclass="author">也写进去是因为<strong>(.*)</strong>还匹配到了多余的东东,要吧<pclass="author">也加如正则,但是"<pclass="author"><strong>(.*)</strong>(.*)</p><h3>(.*)</h3>";中报错提示<pclass="author"赋值的左边必须是变量”,不能直接写入,自己比较菜还不知道该怎么把它加入正则限制

时间: 2024-09-29 09:56:43

请教如何正则提取html信息的相关文章

Java正则提取网页信息&amp;amp;lt;title&amp;amp;gt;&amp;amp;lt;/title&amp;amp;gt;出问题,提取的内容不全,请教各位高手

问题描述 我用Java提取网页标题时内容不全<title>Ta1bleofContents(目录)(页1)-默认版块-Discuz!Board-PoweredbyDiscuz!Archiver</title>下面是正则Stringregex="<title>([^</title>]*)";Patternpattern=Pattern.compile(regex,Pattern.DOTALL);Matchermatcher=pattern.

java 正则提取ip 和端口

问题描述 电信IpID 地址 端口 类型 地区 验证时间 响应 WHOIS1 61.187.64.20 80 HTTP 湖南省长沙市 电信 08-11 10:53 1.002 whois2 118.182.20.242 8080 HTTP 甘肃省 电信 08-11 10:52 2.275 whois3 125.75.204.22 8080 HTTP 甘肃省酒泉市 电信 08-11 10:51 0.435 whois4 124.225.57.10 8080 HTTP 海南省海口市 电信 08-11

小谈php正则提取图片地址_php技巧

迷上了正则,不断尝试着新花招,首先感谢TNA 的非完全输出RSS,然后再次感谢SH的强迫性学习.没有TNA,我不会去看正则,更不知道世界上有种这么牛的表达式:不是SH的死活说他不懂不知道,我也不会硬着头皮去琢磨,去改进.达到同一个目的,正则的表达方式可以不唯一,没有做不到,只有你没想到.可以这样说吧,正则就是玩设定规律,我大爱这种东西.没有比设定规律筛选东西更让我兴奋.感到awesome的了. 分享一下在php环境下使用正则提取图片地址的一些小心得: 图片网址规范的html代码无非就是 复制代码

从MP3中提取歌曲信息(C#)

从MP3中提取歌曲信息 一首MP3歌曲除了音乐信息外,还包含了如歌名.演唱者等信息,当我们用winamp软件听音乐时,播放清单就自动将这些信息读出来.大部分人都喜欢从网上下载音乐,但下载下来的MP3文件名都是文件上传系统自动取名的,和歌曲本身根本不相符,所以,给用户带来了很大的麻烦.但是,懒人有懒人的做法,我们何不自己写一个程序,将歌曲信息自动读出来并为MP3文件自动更名呢? 下面我就以C#为工具,把开发过程写出来. 一首MP3的额外信息存放在文件的最后面,共占128个字节,其中包括以下的内容(

解析PHP正则提取或替换img标记属性

<?php/*PHP正则提取图片img标记中的任意属性*/$str = '<center><img src="https://img.lookmw.cn/images/20100516000.jpg" height="120" width="120"><br />PHP正则提取或更改图片img标记中的任意属性</center>'; //1.取整个图片代码preg_match('/<s*i

巧用WPS表格提取身份证信息

目前,我国的身份证号分为两种,一种为15位, 一种为18位.在15位的老版身份证中,第7到12位为出生日期数,最后一位为性别代码,偶数为女,奇数为男.18位的新身份证中第7到14位为出生日期数,倒数第2位为性别代码,同样偶数为女,奇数为男. 基于这个特点,我们可以用函数加以判断.如图1是我们已输入完身份证号的职工信息表,在输入身份证号时需注意,要把单元格格式设为文本型,或在所输身份证号前加一个单引号"'". 1.提取出生日期 在D2中输入公式"=IF(LEN(C2)=15,T

php正则提取图片地址

 最近在开发程序的时候需要获取提取内容中的图片地址,这里简单分享下方法,需要的朋友可以参考下 迷上了正则,不断尝试着新花招,首先感谢TNA 的非完全输出RSS,然后再次感谢SH的强迫性学习.没有TNA,我不会去看正则,更不知道世界上有种这么牛的表达式:不是SH的死活说他不懂不知道,我也不会硬着头皮去琢磨,去改进.达到同一个目的,正则的表达方式可以不唯一,没有做不到,只有你没想到.可以这样说吧,正则就是玩设定规律,我大爱这种东西.没有比设定规律筛选东西更让我兴奋.感到awesome的了.   分享

正则表达式-请教php正则匹配时斜杠或冒号引起的问题

问题描述 请教php正则匹配时斜杠或冒号引起的问题 preg_match_all(""/>[w+="".*""s]+</"" $xml $pre); 我用正则去匹配类似下面的字符串: src1=""111"" src2=""bb"" src3=""ccc"" 匹配结果是:>src1=&quo

用Google API 提取名片信息

介绍 我们每个人或多或少都会使用到名片.但是如果名片数量一大,管理它们就显得非常麻烦.因此我产生用这篇文章的案例来管理他们. 这里,我先用手机对每张名片拍照,并按以下流程进行处理: 把获得的名片图像交给我们的应用程序,抽取人名,公司名称,地址等信息.这里我使用了Google Vision API 和 自然语言(Natural Language )API,因为这两个API简单易用,并且性能也很不错. 我使用Python来编写我的这个应用程序,来调用 Google Vision API 和 Natu