PHP取网页所有链接实现程序代码总结

我们核心代码就是正则表达试了

代码如下	复制代码
function get_all_url($code){ preg_match_all(‘/<as+href=["\|']?([^>"' ]+)["\|']?s[^>]>([^>]+)</a>/i’,$code,$arr); return array(‘name’=>$arr[2],’url’=>$arr[1]); }

上面只是简单的下面看全例

代码如下	复制代码
$url ='http://www.111cn.net'; $body=@file_get_contents($url); preg_match_all('/href=['"]?([^'"])['"]?>(.)/i',$body,$b); $nums = array(); foreach($b[1] as $u){ if(in_array($u,$nums)){ continue; } $nums[]=$u; $title=strip_tags($u); echo $title."</br>"; }

利用curl函数来获取

代码如下

复制代码

<?php
/*
* 使用curl 采集www.111cn.net下的所有链接。
*/
include_once('function.php');

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.111cn.net/');
// 只需返回HTTP header
curl_setopt($ch, CURLOPT_HEADER, 1);
// 页面内容我们并不需要
// curl_setopt($ch, CURLOPT_NOBODY, 1);
// 返回结果，而不是输出它
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
$info = curl_getinfo($ch);
if ($html === false) {
echo "cURL Error: " . curl_error($ch);
}

curl_close($ch);
$linkarr = _striplinks($html);
// 主机部分，补全用
$host = 'http://www.111cn.net/';
if (is_array($linkarr)) {
foreach ($linkarr as $k => $v) {
$linkresult[$k] = _expandlinks($v, $host);
}
}

printf("<p>此页面的所有链接为：</p><pre>%s</pre>n", var_export($linkresult , true));

获取所有网址，但只有不重复的数据

代码如下

复制代码

<?
　　$e=clinchgeturl("http://im286.com/forumdisplay.php?fid=1");
　　
　　var_dump($e);
　　function clinchgeturl($url)
　　{
　　
　　//$url="http://127.0.0.1/1.htm";
　　//$rootpath="http://fsrootpathfsfsf/yyyyyy/";
　　//var_dump($rrr);
　　if(eregi('(.)*[.](.)*',$url)){
　　 $roopath=split("/",$url);
　　 $rootpath="http://".$roopath[2]."/";
　　 $nnn=count($roopath)-1;for($yu=3;$yu<$nnn;$yu ){$rootpath.=$roopath[$yu]."/";}
　　 // var_dump($rootpath); //http: ,'',127.0.0.1,xnml,index.php
　　 }
　　 else{$rootpath=$url;//var_dump($rootpath);
　　}
　　if(isset($url)){
　　echo "$url 有下列裢接：<br>";
　　$fcontents = file($url);
　　while(list(,$line)=each($fcontents)){
　　while(eregi('(href[[:space:]]*=[[:space:]]*"?[[:alnum:]:@/._-] [?]?[^"]*"?)',$line,$regs)){
　　//$regs[1] = eregi_replace('(href[[:space:]]*=[[:space:]]*"?)([[:alnum:]:@/._-] )("?)',"\2",$regs[1]);
　　$regs[1] = eregi_replace('(href[[:space:]]*=[[:space:]]*["]?)([[:alnum:]:@/._-] [?]?[^"]*)(.*)[^"/]*(["]?)',"\2",$regs[1]);
　　
　　if(!eregi('^http://',$regs[1])){
　　
　　 if(eregi('^..',$regs[1])){
　　 // $roopath=eregi_replace('(http://)?([[:alnum:]:@/._-] )[[:alnum:] ](.*)[[:alnum:] ]',"http://\2",$url);
　　
　　 $roopath=split("/",$rootpath);
　　 $rootpath="http://".$roopath[2]."/";
　　 //echo "这是根本d ："."n";
　　 $nnn=count($roopath)-1;for($yu=3;$yu<$nnn;$yu ){$rootpath.=$roopath[$yu]."/";}
　　 //var_dump($rootpath);
　　 if(eregi('^..[/[:alnum:]]',$regs[1])){
　　 //echo "这是../目录/ ："."n";
　　 //$regs[1]="../xx/xxxxxx.xx";
　　 // $rr=split("/",$regs[1]);
　　 //for($oooi=1;$oooi<count($rr);$oooi )
　　$rrr=$regs[1];
　　 // {$rrr.="/".$rr[$oooi];
　　 $rrr = eregi_replace("^[.][.][/]",'',$rrr); /

时间： 2024-09-20 04:07:13

PHP取网页所有链接实现程序代码总结

PHP取网页所有链接实现程序代码总结的相关文章

.NET2.0抓取网页全部链接

网页抓取-抓取网页相关的应用程序

PHP实现抓取网页的所有超链接的代码

php 抓取新浪新闻的程序代码

php匹配字符中链接地址程序代码

python正则匹配抓取豆瓣电影链接和评论代码分享_python

php 匹配字符中链接地址程序代码

python抓取网页图片

实时抓取网页数据