Java正则提取网页信息<title></title>出问题,提取的内容不全,请教各位高手

问题描述

我用Java提取网页标题时内容不全<title>Ta1bleofContents(目录)(页1)-默认版块-Discuz!Board-PoweredbyDiscuz!Archiver</title>下面是正则Stringregex="<title>([^</title>]*)";Patternpattern=Pattern.compile(regex,Pattern.DOTALL);Matchermatcher=pattern.matcher(buffer.toString());while(matcher.find()){System.out.println(matcher.group(1).trim());}结果为Ta1bleof后面的内容全都丢了好奇怪??

解决方案

解决方案二:
答案很显然:([^</title>]*)";表示<title>之后,不为空格,不为<,/,T,l,e>的字符能匹配,所以到了能匹配到:<title>Ta1b后面的l就不能匹配上了!搂住为何不这样做,考虑title会空格和换行,加/r/n应该可以搞定Stringsrc="<title>Ta1bleofContents(目录)(页1)-默认版块-Discuz!Board-PoweredbyDiscuz!Archiver</title>";Stringregex="<title>(.*)</title>";Patternpattern=Pattern.compile(regex);Matchermatcher=pattern.matcher(src);while(matcher.find()){System.out.println(matcher.group(1).trim());break;}
解决方案三:
哦,原来如此啊,我原来还以为</title>是一个整体,只要是非</title>之前的都能匹配,谢谢高手,我还是正则个初学者
解决方案四:
RegexBuddy这个工具挺好用的,调试正则表达式,很省事。
解决方案五:
谢谢,这个软件真的很好用,以前用RegexTester.exe老是出问题
解决方案六:
学习一下

时间: 2024-09-18 10:28:58

Java正则提取网页信息&amp;lt;title&amp;gt;&amp;lt;/title&amp;gt;出问题,提取的内容不全,请教各位高手的相关文章

java 正则提取ip 和端口

问题描述 电信IpID 地址 端口 类型 地区 验证时间 响应 WHOIS1 61.187.64.20 80 HTTP 湖南省长沙市 电信 08-11 10:53 1.002 whois2 118.182.20.242 8080 HTTP 甘肃省 电信 08-11 10:52 2.275 whois3 125.75.204.22 8080 HTTP 甘肃省酒泉市 电信 08-11 10:51 0.435 whois4 124.225.57.10 8080 HTTP 海南省海口市 电信 08-11

如何提取网页中想要的信息并保存到text文件中

问题描述 如题,如何提取网页中想要的信息并保存到text文件中! 解决方案 解决方案二:该回复于2011-04-11 10:56:55被版主删除解决方案三:把网页中想要显示的内容转发(或者提交)给一个servlet控制器在控制器里面通过IO然后写到text中去解决方案四:提取的话,用正则过滤.解决方案五:引用2楼javaxiaochouyu的回复: 把网页中想要显示的内容转发(或者提交)给一个servlet控制器在控制器里面通过IO然后写到text中去 提取网页中想要的内容,这个怎么弄呢··初研

正则-如何用Java爬取网页的copyright?

问题描述 如何用Java爬取网页的copyright? 谢谢了!新人不知道要怎么爬,这是老师论文中的内容,论文中写用了11种正则来抓取 请求大家支援QAQ 解决方案 jsoup import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public static void main(String[] args) throws IOException { Document d

java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去 (可以自动创建表头)

问题描述 java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去 (可以自动创建表头) "java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去 "创建好数据库的情况下可以插入对应数据了,现在我想实现自动创建表头,请问如何实现?请各位大大支招^_^ 解决方案 用正则表达式http://www.cnblogs.com/longwu/archive/2011/12/24/2300110.html 解决方案二: 没有你想象中的这么智能,要采集什么网页信息,入到什么

ajax-请问关于java 通过http client抓取网页信息返回:请开启JavaScript并刷新该页

问题描述 请问关于java 通过http client抓取网页信息返回:请开启JavaScript并刷新该页 初学httpClient,想去抓取某个网页查询出来的结果信息,通过浏览器监控发现response出来的信息和java控制台打印出来的不一样. package com.test; import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import

”java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去“的相关问题

问题描述 "java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去"的相关问题 "java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去"的相关问题,CS的小学妹,希望大神能回答O(∩_∩)O 解决方案 http://download.csdn.net/detail/wdz759886267/8292389#comment 解决方案二: 您好,能做到自动创建表头吗?是怎么实现的呢? 解决方案三: 您好,能做到自动创建表头吗?是怎么实现的呢

(java)将一个系统的动态网页信息转另一个系统

问题描述 (java)将一个系统的动态网页信息转另一个系统 一个内网的系统和一个外网的系统,需要把内网系统的网页信息转到外网的系统. 例如:内网的url为xxx,在外网点击某个链接后显示xxx的内容. 有什么办法可以实现吗? 问题补充: 服务端是内外网都可以访问的 解决方案 ngnix 做反向代理,也可以你服务器用webclient从内网系统下载网页再传回客户端.

java正则提取 description标签

问题描述 java正则提取description标签,我想要一个可以测试的类谢谢,像QQ分享那样的视频分享,一般是抓取什么标签呢?

请教如何正则提取html信息

问题描述 请教各位高手个问题,我想要提取HTML帖子内容,非常感谢ostrichmyself大哥帮我解决了好多问题,但是还在有些地方出问题,比较急所以再发帖求助@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@<pclass="author"><strong>admin</strong>发表于2009-5-1416:49</p><h3>提取帖子内容</h3>"提取这句话"<