php正则匹配获取指定url网页页面超级链接地址

在数据采集与页面分析中，常需要抓取给定url页面的内容，或者第二、第三层次深度页面内容。

这里是一个测试例子的实现，仅供参考。

代码如下：

/*
匹配给定页面链接
return:array match[link,content,all]
*/
function match_links($host, $document) {
$pattern = '/<a(.*?)href="(.*?)"(.*?)>(.*?)</a>/i';
preg_match_all($pattern, $document, $m);
return $m;

preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1)(.*?)1|([^s>]+))[^>]*>?(.*?)</a>'isx",$document,$links);
while(list($key,$val) = each($links[2])) {
  if(!empty($val))
   if(preg_match("/http/",$val)){
    $match['link'][] = $val;
   }
   else {
    $match['link'][] = $host . $val;
   }
}
while(list($key,$val) = each($links[3])) {
  if(!empty($val))
   if(preg_match("/http/",$val)){
    $match['link'][] = $val;
   }
   else {
    $match['link'][] = $host . $val;
   }
}
while(list($key,$val) = each($links[4])) {
  if(!empty($val))
   $match['content'][] = $val;
}
while(list($key,$val) = each($links[0])) {
  if(!empty($val))
   $match['all'][] = $val;
}
return $match['link'];
}

/*
从给定url中获取页面文本内容
*/
function get_content_from_url($url) {
$str = @file_get_contents($url);
if(mb_check_encoding($str, "GBK"))
$str = iconv("GBK","UTF-8", $str);
$str = strip_tags($str); // 过滤html标签
/*
$str = preg_replace( "@<script(.*?)</script>@is", "", $str );
$str = preg_replace( "@<iframe(.*?)</iframe>@is", "", $str );
$str = preg_replace( "@<style(.*?)</style>@is", "", $str );
$str = preg_replace( "@<(.*?)>@is", "", $str );
*/
//过滤非汉字字符
preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches);
$str = join('，', $matches[0]);
if(!$str)
return NULL;

return $str;
}

function get_content($url,$depth) {
if(!$url || $depth < 1)
return false;

while($depth > 1){
  $str = @file_get_contents($url);
  if(!$str)
   return false;

  $parseurl = parse_url($url);
  if($parseurl['host'])
   $host = $parseurl[scheme] . "://" . $parseurl['host'];

  $arrlink = match_links($host,$str);
  $arr_url = array_unique($arrlink);

  $depth--;
  foreach($arr_url as $url){
   $content .= get_content($url, $depth); //递归调用
  }
}

$content .= get_content_from_url($url);

return $content;
}

时间： 2024-11-08 18:53:25

php正则匹配获取指定url网页页面超级链接地址

php正则匹配获取指定url网页页面超级链接地址的相关文章

JS使用ajax方法获取指定url的head信息中指定字段值的方法

JS使用ajax方法获取指定url的head信息中指定字段值的方法_javascript技巧

js截取相应的域名----正则匹配法和校验Url 正则表达式

获取指定IP的终端的MAC地址

在C#中如何获取网页的验证码链接地址

网页的超级链接-Adobe Flash Professional CS6操作

PHP获取指定URL页面中的所有链接例子

Dreamweaver网页制作超级链接

几种获取html字符串中所有a链接地址代码