java 中正则过滤html标签

 代码如下 复制代码

 

public static String delHtml(String inputString) {
        String htmlStr = inputString; // 含html标签的字符串
        String textStr = "";
        java.util.regex.Pattern p_script;
        java.util.regex.Matcher m_script;
        java.util.regex.Pattern p_html;
        java.util.regex.Matcher m_html;

        try {
            String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式

            String regEx_script = "<[/s]*?script[^>]*?>[/s/S]*?<[/s]*?//[/s]*?script[/s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[/s/S]*?<//script>

            p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
            m_script = p_script.matcher(htmlStr);
            htmlStr = m_script.replaceAll(""); // 过滤script标签

            p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
            m_html = p_html.matcher(htmlStr);
            htmlStr = m_html.replaceAll(""); // 过滤html标签

            textStr = htmlStr;

        } catch (Exception e) {
            System.err.println("Html2Text: " + e.getMessage());
        }

        return textStr;// 返回文本字符串
    }

时间: 2024-10-26 09:56:54

java 中正则过滤html标签的相关文章

java使用正则表达式过滤html标签_java

前段时间开发的时候要读取一篇文章的简介内容(也就是前200个字符),使用了隐藏字段,可能有人就要问了,那后台也是可以截取字符的啊,那是因为编辑器里面包含了html标签,所以后台就需要处理html标签的正则表达式,前些天上网搜了下,发现有人写好的一个类,给大家共享下,不要闲小弟落伍了... import java.util.regex.Matcher; import java.util.regex.Pattern; /** * <p> * Title: HTML相关的正则表达式工具类 * <

基于java中正则操作的方法总结_java

正则表达式在处理字符串的效率上是相当高的 关于正则表达式的使用,更多的是自己的经验,有兴趣可以参阅相关书籍 这里主要写一下java中的正则操作方法 实例1:匹配 复制代码 代码如下: import java.util.Scanner; class Demo {    public static void main(String[] args) {        Scanner sc = new Scanner(System.in);        //获取输入        System.out

php正则过滤html标签、空格、换行符的代码(附说明)

复制代码 代码如下: $str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格) $str=preg_replace("/<\!--.*?-->/si","",$str); //

php正则过滤html标签、空格、换行符的代码(附说明)_php技巧

复制代码 代码如下: $str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格) $str=preg_replace("/<\!--.*?-->/si","",$str); //

Java中正则Matcher类的matches、lookAt和find方法的区别

matches:整个匹配,只有整个字符序列完全匹配成功,才返回True,否则返回False.但如果前部分匹配成功,将移动下次匹配的位置.  lookingAt:部分匹配,总是从第一个字符进行匹配,匹配成功了不再继续匹配,匹配失败了,也不继续匹配.  find:部分匹配,从当前位置开始匹配,找到一个匹配的子串,将移动下次匹配的位置.  reset:给当前的Matcher对象配上个新的目标,目标是就该方法的参数:如果不给参数,reset会把Matcher设到当前字符串的开始处. 使用示例代码来展示他

php利用正则过滤链接、标签,空格,换行符程序

strip_tags函数 strip_tags --- 去除字串中的HTML和PHP标签 语法 : string strip_tags (string str [, string allowable_tags]) 例  代码如下 复制代码 <?php $text = '<p>Test paragraph.</p><!-- Comment --> <a href="#fragment">Other text</a>'; e

C#使用正则表达式过滤html标签_C#教程

在项目中遇到这样一个需求,需要将一段html转换为一般文本返回,万能的正则表达式来了. 正则表达式来拯救你,代码如下: public static string Html2Text(string htmlStr) { if (String.IsNullOrEmpty(htmlStr)) { return ""; } string regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; //定

java 过滤HTML标签

Java如何过滤掉HTML标签呢? java过滤html标记   java删除html标签 Java代码   /**       * 删除input字符串中的html格式       *        * @param input       * @param length       *            显示的字符的个数       * @return       */       public static String splitAndFilterString(String inpu

js过滤HTML标签以及&amp;nbsp;正则

js过滤HTML标签以及 正则 虽说看了正则表达式的内容是看了,但是毕竟还是刚接接触,连基本的概念都很模糊,于是只好在网上找到如下的代码:   function setContent(str) { str = str.replace(/</?[^>]*>/g,''); //去除HTML tag str.value = str.replace(/[ | ]*n/g,'n'); //去除行尾空白 //str = str.replace(/n[s| | ]*r/g,'n'); //去除多余空行