问题描述
[color=#FF0000]最近有个需求需要用正则表达式过滤提取搜狐新闻重要新闻的连接, 小弟对正则表达式不是很清楚,所以请各位老大给个标准的表达式 谢谢了 [color] http://news.sohu.com/
解决方案
正则不太方便,建议楼主看看这个java的html处理框架JSOUP:http://jsoup.org/中文API:这个很简单,看完这个就知道如何使用了http://www.open-open.com/jsoup/
解决方案二:
我也推荐jsoupjsoup采用了js访问dom结构的方式很方便虽然也是根据特定网站结构定制开发
解决方案三:
2楼的思路可行。
解决方案四:
可以试试HtmlParser如果要使用正则表达式的话,可以试试:String rex2 = "<a\s+.*?[href]="(http://news.*)"\s.*>"; Pattern p1 = Pattern.compile(rex2, Pattern.CASE_INSENSITIVE); Matcher m1 = p1.matcher(content); String url_iframe = null; while (m1.find()) { System.out.println m1.group(1)); }
解决方案五:
要闻连接的关键字是什么,用正则表达式也有依据
时间: 2024-11-30 13:33:24