初级的用php写的采集程序_php技巧

可以先用这个采集然后在用帝国处理
<?php
####################################################################################
#作者:9elong
#网站:个人小站不值一提
#时间:2007-01-01
#声明:仅用于学习php之用。
#功能:采集单页面图片。
#说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范
####################################################################################
//把图片从信息页抓取下来的函数
function  getimg($url,$n,$key,$imgqian,$imgbiao,$titlekey)
{
                //$key图片地址正则
                //$titlekey图片标题正则
                //$imgqian图片地址前缀
                //$imgbiao图片地址特殊标识
                global  $n;
                global  $msg;
                global  $result;
                global  $imgadd;
                global  $title;
                $msg=file_get_contents($url);
                $key=str_replace("{图片地址}","(.+)",$key);
                $key="|".$key."|isU";
                preg_match_all($key,$msg,$result);
                $c=count($result[0]);
                for($i=0;$i<$c;$i++)
                {
                                $img=$result[0][$i]."<br>";
                                if(ereg("^.*".$imgbiao.".*$",$img))
                                {
                                                $img=str_replace($imgbiao,$imgqian.$imgbiao,$img);
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                //echo  "<img  src=".($img[0])."><br>";
                                                $n++;
                                }
                                elseif(ereg("^.*jpg.*$",$img))
                                {
                                                preg_match("|http://(.+)jpg|isU",$img,$img);
                                                $imgadd[$n]=$img[0];
                                                if($img[0]!="")
                                                $n++;
                                }
                                unset($img);
                }                                
                                $titlekey=str_replace("{图片标题}","(.+)",$titlekey);
                                $titlekey="|".$titlekey."|isU";
                                preg_match($titlekey,$msg,$title);
                                //echo  $title[0];
                                return  $title;
                return  $msg;
                return  $result;
                return  $n;
                return  $imgadd;
}
####################################################################################
#不支持file_get_contents()函数可以使用下面的替换
#$i=0;
#$handle=@fopen($url,"rb");
#while  (!@feof($handle))
#{
#                $buffer[$i]=  @fgets($handle,  4096);
#                $i++;
#}
#fclose($handle);
#$msg=join("",$buffer);
####################################################################################
if($_GET['act']=="getimgadd"&&$_POST['url']!="")
{
                $url=$_POST['url'];
        getimg($url,"0",$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
####################################################################################
        //获取分页
                if($_POST['getpage']=="是")
        {
                                $_POST['page']=str_replace("{分页地址}","(.+)",$_POST['page']);
                $page="|".$_POST['page']."|isU";
                //echo  $page;
        preg_match_all($page,$msg,$presult);
                if($_POST['pc']==""||$_POST['pc']=="全部")
                        $pc=count($presult[0]);
                else
                                $pc=$_POST['pc'];
                if($_POST['pc']>count($presult[0]))
                                $pc=count($presult[0]);
                for($i=1;$i<$pc;$i++)
                {
                                $pageurl=$presult[0][$i];
                                //echo  $pageurl."<br>";
                                if(ereg("^.*[1-9].*$",$pageurl))
                                {
                                                $pageurl=str_replace("<a  href="","<a  href="".$_POST['imgqian'],$pageurl);
                                                $pagekey=str_replace("{关键地址}","(.+)",$_POST['pagekey']);
                                                $pagekey="|".$pagekey."|isU";
                                                preg_match($pagekey,$pageurl,$N3[$i]);
                                                //echo  ($N3[$i][0])."<br>";
                                                getimg($N3[$i][0],$n,$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
                                }
                }
        }
####################################################################################
        echo  "图片集〖".$title[1]."〗".$n."张图片被抓取<br><a  href='?act='>返回首页</a><br>";

                while(list($num,$var)=each($imgadd))
                {
                                if($_POST['showtype']=="图片")
                                {
                                                echo  "<img  src='".$var."'><br>";
                                }
                                else
                                echo  $var."<br>";
                }
####################################################################################
                //exit();
}
?>
实例1(信息页有分页,使用了简单的分页正则):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://www.pp132.com/n835c17.shtml'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<img{图片地址}>'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value='http://www.pp132.com/'><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='upload'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<H1  class=aTitle>{图片标题}</H1></DIV>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value='<a  href="{分页地址}shtml">.[0-9]'><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value='http://{关键地址}shtml'><br>
<SELECT  NAME="getpage">
<option  value="是"    selected="selected">获取分页信息</option>
<option  value="否">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>
实例2(信息页没有分页,所以分页正则为空):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://zy.muwen.com/pic/89/2007/01/01/131721.htm'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<IMG  src="/UpLoad{图片地址}jpg"'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value='http://zy.muwen.com/'><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='UpLoad'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<span  id="_ctl0_TitleLabel"  class="Title">{图片标题}</span></TD>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value=''><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value=''><br>
<SELECT  NAME="getpage">
<option  value="是">获取分页信息</option>
<option  value="否"    selected="selected">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>
实例3(信息页没有分页,所以分页正则为空,图片为绝对地址,所以图片地址前缀为空):
<FORM  METHOD=POST  ACTION="?act=getimgadd">
输入图片地址<INPUT  TYPE="text"  NAME="url"  size=80  value='http://www.6642.com/Disp/9936.htm'><br>
图片地址正则<INPUT  TYPE="text"  NAME="key"  size=80  value='<P><IMG{图片地址}"></P>'><br>
图片地址前缀<INPUT  TYPE="text"  NAME="imgqian"  size=80  value=''><br>
图片地址标识<INPUT  TYPE="text"  NAME="imgbiao"  size=80  value='UpLoad'><br>
图片标题正则<INPUT  TYPE="text"  NAME="titlekey"  size=80  value='<div  align="right"><b>{图片标题}</b></div></td>'><br>
分页地址正则<INPUT  TYPE="text"  NAME="page"  size=80  value=''><br>
分页地址模式<INPUT  TYPE="text"  NAME="pagekey"  size=80  value=''><br>
<SELECT  NAME="getpage">
<option  value="是">获取分页信息</option>
<option  value="否"    selected="selected">不要分页信息</option>
</SELECT><br>
<SELECT  NAME="pc">
<option  value="1"    selected="selected">获取1页</option>
<option  value="2">获取2页</option>
<option  value="3">获取3页</option>
<option  value="4">获取4页</option>
<option  value="5">获取5页</option>
<option  value="全部">获取全部</option>
</SELECT><br>
<SELECT  NAME="showtype">
<option  value="图片"    selected="selected">直接显示图片</option>
<option  value="文字">直接显示地址</option>
</SELECT><br>
<INPUT  TYPE="submit">
</FORM><br>

华声论坛图片为附件http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336436

图片地址正则:upload=jpg{图片地址}upload

图片地址标识:bbs

图片标题正则:帖子主题</B>:{图片标题}</th>

华声论坛图片为外链http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336253

图片地址正则:img]{图片地址}/img

图片地址标识:jpg

图片标题正则:帖子主题</B>:{图片标题}</th>

时间: 2024-10-01 22:53:08

初级的用php写的采集程序_php技巧的相关文章

基于PHP的cURL快速入门教程 (小偷采集程序)_php技巧

最爽的是,PHP也支持 cURL 库.本文将介绍 cURL 的一些高级特性,以及在PHP中如何运用它. 为什么要用 cURL? 是的,我们可以通过其他办法获取网页内容.大多数时候,我因为想偷懒,都直接用简单的PHP函数: $content = file_get_contents("http://www.jb51.net");// or$lines = file("http://www.jb51.net");// orreadfile(http://www.jb51.

写出高质量的PHP程序_php技巧

一.安全 无论程序写的如何,首先安全是第一位的,没有安全保障的程序根本不能谈高质量. 二.稳定 无论你代码写的再烂,必须要能稳定运行. 三.用户体验 用户的体验直接决定着一个程序的命运,根本不懂用户体验的程序高质量便无从谈起. 四.商业体验 开发应用的目的自然是为了赚钱,我认为,再优秀的程序,不赚钱也等于是一个废物. 五.效率 这是最后一个了,一直认为性能是最次要的,PHP程序本身的效率就不是太高,只所以能如此流行主要是开源和开发成本低而已.这个问题不想再去说,有的程序员想从PHP代码上来提高性

php初学者写及时补给skype用户充话费的小程序_php技巧

其实加在一起有几十个,但因为需要操作的数据比较多,就在后面加了一段小程序来解决.可以处理昨天没有处理到的数据,具体如下: 复制代码 代码如下: $handle = mysql_connect("host", "user", "password"); if(!$handle || !(mysql_select_db("databasename", $handle))) exit(); $sql = 'select skype_i

能在网页中写字和能擦写的js程序_javascript技巧

提示:按住鼠标左键不放,在页面中拖动即可写字 ; 同时按住ctrl和鼠标左键不放,在页面中拖动即可把字擦去

php微信支付接口开发程序_php技巧

php微信支付接口开发程序讲解: 必要条件: appid //公众号后台开发者中心获得(和邮件内的一样)   mchid//邮件内获得  key//商户后台自己设置  appsecret //公众号开发者中心获得 两个证书文件,邮件内获得 apiclient_cert.pem   apiclient_key.pem注意事项:公众号后台微信支付->开发配置->新增测试目录和测试个人微信号. 开发者中心->网页授权获取用户基本信息->修改成你的测试域名.否则会出现redirect_ur

PHP经典的给图片加水印程序_php技巧

<?php   /**************************************************************  参数说明:   $max_file_size  : 上传文件大小限制, 单位BYTE   $destination_folder : 上传文件路径   $watermark   : 是否附加水印(1为加水印,其他为不加水印);   使用说明:   1. 将PHP.INI文件里面的"extension=php_gd2.dll"一行前面的;

一些PHP写的小东西_php技巧

一些小东西有时候可能用得上!  1.得到客户端IP地址  function getip(){         if (! empty($_SERVER["HTTP_X_FORWARDED_FOR"])){ //使用代理的情况                 $tip = split(",", $_SERVER["HTTP_X_FORWARDED_FOR"]);                 $cip = $tip[0];         } 

php下通过IP获取地理位置的代码(小偷程序)_php技巧

复制代码 代码如下: function get_ip_place() { $ip=file_get_contents("http://fw.qq.com/ipaddress"); $ip=str_replace('"',' ',$ip); $ip2=explode("(",$ip); $a=substr($ip2[1],0,-2); $b=explode(",",$a); return $b; } 上面来自开源中国写的真XXX,新闻我都

中国站长站 For Dede4.0 采集规则_php技巧

转载请注明出自落伍im286.com,本贴地址:http://www.im286.com/viewthread.php?tid=1991813 只差两分就落伍了,特献出中国站长站 For Dede4.0 的采集规则,希望大家能够支持我落伍,谢谢了!!! 下面的规则为网站运营  >> 搜索优化 的采集规则,其他栏目的规则只要把"来源网址"和"文章网址需包含"这两项改成你想采集栏目的网址和目录. 如想采集站长在线 >> 好站推荐 这个栏目,你只要