php检测html标签是否闭合、没有则修复

本文为大家带来一篇 php检测html标签是否闭合、没有则修复。希望对您的学习研究PHP有帮助,具体参考描述如下: 

html标签闭合检测与修复,说的有点大 , 并没有考虑的很完整,没有使用正则表达式, 适用于html文件中只有开始标签没有结束标签, 是有结束标签没有开始标签的情况。标签闭合的位置需要根据需求调整

<?php
$str = '
<div data="<li></li>">
<img src="http://www.baidu.com/123123.png"/>
<div2>
<a>content</a>
</div2>
<ul>
<li>
</li>
</ul>
<p>
content full
</p>
this is content</test1>
this is content</test2>
<test4 data="liujinjing"> This is cont
<li></li>
<test3 data="liujinjing"> This is content
<div3>
</div3>
</div4>
</div>
</div>
<div6 style="width:90px; "> this is content';
$str_len = strlen($str);
//记录起始标签
$pre_data = array();
//记录起始标签位置
$pre_pos = array();
$last_data = array();
$error_data = array();
$error_pos = array();
$i = 0;
//标记为 < 开始
$start_flag = false;
while( $i < $str_len ) {
if($str[$i]=="<" && $str[$i+1]!='/' && $str[$i+1]!='!') {
$i++;
$_tmp_str = '';
//标记为 < 开始
$start_flag = true;
//标记空白
$space_flag = false;
while($str[$i]!=">" && $str[$i]!="'" && $str[$i]!='"' && $str[$i] !='/' && $i<$str_len){
if($str[$i]==' ') {
$space_flag = true;
}
if(!$space_flag) {
$_tmp_str .= $str[$i]; 
}
$i++;
}
$pre_data[] = $_tmp_str;
$pre_pos[] = $i;
} else if ($str[$i]=="<" && $str[$i+1]=='/') {
$i += 2;
$_tmp_str = '';
while($str[$i]!=">" && $i<$str_len){
$_tmp_str .= $str[$i];
$i++;
}
$last_data[] = $_tmp_str;
//查看开始标签的上一个值
if(count($pre_data)>0) {
$last_pre_node = getLastNode($pre_data, 1);
if($last_pre_node == $_tmp_str) {
//配对上, 删除对应位置的值
array_pop($pre_data);
array_pop($pre_pos);
array_pop($last_data);
} else {
//没有配对上, 有两种情况
//情况一: 只有闭合标签, 没有开始标签
//情况二:只有开始标签, 没有闭合标签
array_pop($last_data);
$error_data[] = $_tmp_str;
$error_pos[] = $i;
}
} else {
array_pop($last_data);
$error_data[] = $_tmp_str;
$error_pos[] = $i; 
}
}else if ($str[$i]=="<" && $str[$i+1]=="!") {
$i++;
while($i<$str_len) {
if($str[$i]=="-" && $str[$i+1]=="-" && $str[$i+2]==">") {
$i++;
break;
} else {
$i++;
}
}
$i++;
}else if($str[$i]=='/' && $str[$i+1]=='>') {
//跳过自动单个闭合标签
if($start_flag) {
array_pop($pre_data);
array_pop($pre_pos);
$i+=2;
}
}else if($str[$i]=="/" && $str[$i+1]=="*"){
$i++;
while($i<$str_len) {
if($str[$i]=="*" && $str[$i+1]=="/") {
$i++;
break;
} else {
$i++;
}
$i++;
}
}else if($str[$i]=="'"){
$i++;
while($str[$i]!="'" && $i<$str_len) {
$i++;
}
$i++;
} else if($str[$i]=='"'){
$i++;
while($str[$i]!='"' && $i<$str_len ) {
$i++;
}
$i++;
} else {
$i++;
}
}
//确定起始标签的位置
function confirm_pre_pos($str, $pre_pos){
$str_len = strlen($str);
$j=$pre_pos;
while($j < $str_len) {
if($str[$j] == '"') {
$j++;
while ($j<$str_len) {
if($str[$j]=='"') {
$j++;
break;
}
$j++;
}
}
else if($str[$j] == "'") {
$j++;
while ($j<$str_len) {
if($str[$j]=="'") {
$j++;
break;
}
$j++;
}
}
else if($str[$j]==">") {
$j++;
while ($j<$str_len) {
if($str[$j]=="<") {
//退回到原有内容位置
$j--;
break;
}
$j++;
}
break;

else {
$j++;
}
}
return $j;
}
//确定起始标签的位置
function confirm_err_pos($str, $err_pos){
$j=$err_pos;
$j--;
while($j > 0) {
if($str[$j] == '"') {
$j--;
while ($j<$str_len) {
if($str[$j]=='"') {
$j--;
break;
}
$j--;
}
}
else if($str[$j] == "'") {
$j--;
while ($j<$str_len) {
if($str[$j]=="'") {
$j--;
break;
}
$j--;
}
}
else if($str[$j]==">") {
$j++;
break;

else {
$j--;
}
}
return $j;
}
//获取数组的倒数第num个值
function getLastNode(array $arr, $num){
$len = count($arr);
if($len > $num) {
return $arr[$len-$num];
} else {
return $arr[0];
}
}
//整理数据, 主要是向后看, 进一步进行检查
function sort_data(&$pre_data, &$pre_pos, &$error_data, &$error_pos){
$rem_key_array = array();
$rem_i_array = array();
//获取需要删除的值
foreach($error_data as $key=>$value){
$count = count($pre_data);
for($i=($count-1) ; $i>=0; $i--) {
if($pre_data[$i] == $value && !in_array($i, $rem_i_array)) {
$rem_key_array[] = $key;
$rem_i_array[] = $i;
break;
}
}
}
//删除起始标签相应的值
foreach($rem_key_array as $_item) {
unset($error_pos[$_item]);
unset($error_data[$_item]);
}
//删除结束标签相应的值
foreach($rem_i_array as $_item) {
unset($pre_data[$_item]);
unset($pre_pos[$_item]);
}
}
//整理数据, 闭合标签
function modify_data($str, $pre_data, $pre_pos, $error_data, $error_pos){
$move_log = array();
//只有闭合标签的数据
foreach ($error_data as $key => $value) {
// code...
$_tmp_move_count = 0;
foreach ($move_log as $pos_key => $move_value) {
// code...
if($error_pos[$key]>=$pos_key) {
$_tmp_move_count += $move_value;
}
}
$data = insert_data($str, $value, $error_pos[$key]+$_tmp_move_count, false);
$str = $data['str'];
$move_log[$data['pos']] = $data['move_count'];
}
//只有起始标签的数据
foreach ($pre_data as $key => $value) {
// code...
$_tmp_move_count = 0;
foreach ($move_log as $pos_key => $move_value) {
// code...
if($pre_pos[$key]>=$pos_key) {
$_tmp_move_count += $move_value;
}
}
$data = insert_data($str, $value, $pre_pos[$key]+$_tmp_move_count, true);
$str = $data['str'];
$move_log[$data['pos']] = $data['move_count'];
}
return $str;
}
//插入数据, $type 表示插入数据的方式
function insert_data($str, $insert_data, $pos, $type) {
$len = strlen($str);
//起始标签类型
if($type==true) {
$move_count = strlen($insert_data)+3;
$pos = confirm_pre_pos($str, $pos);
$pre_str = substr($str, 0, $pos);
$end_str = substr($str, $pos);
$mid_str = "</" . $insert_data . ">";
//闭合标签类型
} else {
$pos = confirm_err_pos($str, $pos);
$move_count = strlen($insert_data) + 2;
$pre_str = substr($str, 0, $pos);
$end_str = substr($str, $pos);
$mid_str = "<" . $insert_data . ">";
}
$str = $pre_str.$mid_str.$end_str;
return array('str'=>$str, 'pos'=>$pos, 'move_count'=>$move_count);
}
sort_data($pre_data, $pre_pos, $error_data, $error_pos);
$new_str = modify_data($str, $pre_data, $pre_pos, $error_data, $error_pos);
echo $new_str;
// print_r($pre_data);
// print_r($pre_pos);
// print_r($error_data);
// print_r($error_pos);
// echo strlen($str);
// foreach($pre_pos as $value){
// $value = confirm_pre_pos($str, $value);
// for($i=$value-5; $i<=$value; $i++) {
// echo $str[$i];
// }
// echo "\n";
// }
// foreach($error_pos as $value){
// for($i=$value-5; $i<=$value; $i++) {
// echo $str[$i];
// }
// echo "\n";
// }
?>

 

这里先讲解 php检测html标签是否闭合、没有则修复的内容,有兴趣的同学可以继续浏览下面的内容,下一页会更加精彩哦。

●【往下看,下一页更精彩】●

1  2  3  4  5  6  7  下一页 

延伸阅读:
·php正则表达式替换HTML标签
·PHP过滤HTML标签的实现方法
·php过滤提交表单的html标签
·PHP实现删除HTML标签,得到纯文本(可以处理嵌套的标签)
·php判断字符串是否有html标签
·PHP浅析HTML标签过滤方法
·php实现批量替换html标签
·PHP清除HTML标签的三种方式
·PHP清除HTML标签的实现方法
·php使用正则替换html标签和样式的函数
·php使用正则表达式过滤html标签、空格、换行符
·smarty实现过滤html标签后再截取文章
·php使用正则过滤HTML标签、属性示例
·php截取含html标签的字符串示例
·php去除字符串中的HTML标签示例

时间: 2024-07-28 16:56:34

php检测html标签是否闭合、没有则修复的相关文章

关于html问题标签没闭合问题

问题描述 关于html问题标签没闭合问题 我有一条数据,数据里面都是html代码,但是里面又多了< 或者> 或者<img 没有结束符,我读显示出来时候页面都乱了,有没有什么方法,将这些内容固定在html的某个标签里面,有不影响整体的布局的,注意:内容没办法改了,求大侠支招 解决方案 你可以使用iframe 框架,固定他的高度和宽度. 然后把你的所谓的乱码的数据单独定义一个文件,在iframe里引用它. 我不知道你想要什么样的效果,不知道帮到你了没有.

asp自动补全html标签自动闭合(正则表达式)_应用技巧

复制代码 代码如下: Function closeHTML(strContent) Dim arrTags, i, OpenPos, ClosePos, re, strMatchs, j, Match Set re = New RegExp re.IgnoreCase = True re.Global = True arrTags = Array("p", "div", "span", "table", "ul&qu

asp自动补全html标签自动闭合(正则表达式)

复制代码 代码如下: Function closeHTML(strContent) Dim arrTags, i, OpenPos, ClosePos, re, strMatchs, j, Match Set re = New RegExp re.IgnoreCase = True re.Global = True arrTags = Array("p", "div", "span", "table", "ul&qu

《Web前端开发最佳实践》——3.3 正确闭合HTML标签

3.3 正确闭合HTML标签 HTML元素的内容模型定义了元素的结构,表明元素可以包含哪些内容以及元素可以有哪些属性.元素可以包含的内容包括其他元素和字符,但是也有一些元素是空元素,即不能包含任何内容,这些元素对应的HTML标签也称为自闭合标签,下面列出了HTML中所有的自闭合标签:area.base.br.col.command. embed.hr.img.input.keygen.link.meta.param.source.track.wbr W3C制定了多个版本的HTML规范,目前流行的

PHP 修复未正常关闭的HTML标签实现代码(支持嵌套和就近闭合)_php实例

fixHtmlTag version 0.2 这个版本解决了上次遗留的问题,即就近闭合和嵌套闭合问题.具体可以看代码的注释. 复制代码 代码如下: <?php /** * fixHtmlTag * * HTML标签修复函数,此函数可以修复未正确闭合的 HTML 标签 * * 由于不确定性因素太多,暂时提供两种模式"嵌套闭合模式"和 * "就近闭合模式",应该够用了. * * 这两种模式是我为了解释清楚此函数的实现而创造的两个名词, * 只需明白什么意思就行.

HTML基础知识学习:标签属性和元素

html基础    尽管HTML的基础是纯文本,但我们还是需要多一些东西才能使纯文本文件变成合法的HTML文件. 标签 HTML基本的构成包含标签,标签围绕着内容,赋予内容某些意义. 按照下面改进你的文件: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html> &l

knockout 虚拟标签(virtual element) 在 table 中的问题

这几天看了MVC4 / 5 的一些东西, 基本上和 MVC 3都一样, 看起来毫不费力气, 项目还没有正式开工, 每天都是看文档,了解技术. 闲着无聊就把 knockout js 给看了一遍. 今天在看 SignalR的时候, 随手写了段测试代码,发现 Knockout 的虚拟标签有点问题, 一开始我是这样写的: <table>        <tr data-bind="foreach:msgs">            <td data-bind=&q

详解HTML5中的template标签

一.HTML5 template元素初面   元素,基本上可以确定是2013年才出现的.干嘛用的呢,顾名思意,就是用来声明是"模板元素".   目前,我们在HTML中嵌入模板HTML,往往是类似这样的写法:   XML/HTML Code复制内容到剪贴板   <script type="text/template"> // ... </script>        实际上,并不存在type="text/template"这

国外大牛IE版本检测!现在IE都到9了,IE检测代码_javascript技巧

其实学习大牛源代码是一种很好的进步,可以给你一种新的视野. 看到这篇大牛的IE版本检测,只能是惊叹加惊叹.短短的代码中所包含的内容实在是太多了. 所以在这里决定来解读大牛的源代码,让准备向大牛靠近并还在努力的IT同人们从中学习到更多的知识. 我们先来看看一个世界最短ie检测代码: 复制代码 代码如下: var isIE = !-[1,]; 是不是很熟悉,但是有bug,就是不能检测ie9,为什么呢?那是因为这是国外大牛在ie9出来之前利用ie对数组转换的特性来完成的.ie9中已经进行了修复,所以在