php利用fopen实现简单的网页采集程序

 代码如下 复制代码

/**
* 根据URL采集网页内容
*
* @param string $url 链接地址
* @return string
*/

private function fetchbyurl($url){
$handle = fopen($url, ‘r’);
$content = ”;
while (!feof($handle)){
$content .= fgets($handle, 10000);
}
return $content;
//?$this->utf8_iconv($content):”;
}

/*获取所有匹配的内容
* @param string $str 内容
* @param string $start 起始匹配
* @param string $end 中止匹配
* @return array
*/

private function utf8_iconv($content){
return iconv(‘GBK’, ‘UTF-8′, $content);
}
private function strCutAll($str,$start,$end){
$content = explode($start,$str);
$matchs = array();
$sum = count($content);
for( $i = 1;$i < $sum;$i++ ){
$tmp = explode($end,$content[$i]);
$matchs[] = $tmp[0];
unset($tmp);
}
return $matchs;
}

/*获取第一个匹配的内容
* @param string $str 内容
* @param string $start 起始匹配
* @param string $end 中止匹配
* @return string
*/
private function strCut($str, $start, $end){
$content = strstr( $str, $start );
$content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) );
return $content;
}

测试:

/*采集程序*/header("content-Type: text/html; charset=utf-8"); //$nr = file_get_contents(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’); $nr = $this->fetchbyurl(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’);//推荐,还可以用curl dump($this->strCut($nr,’<div class="context">’,'<div class="betterrelated">’));//得到内容。需要进一步过滤用(preg_match_all) dump($this->strCutAll($nr,’<title>’,'</title>’)); 得到标题

时间: 2024-10-31 04:14:35

php利用fopen实现简单的网页采集程序的相关文章

.net网页采集程序内存越来越大,无法释放

问题描述 我的程序是一个采用多线程threadpool和timer来定时执行网页采集任务,最终线程调用的采集网页内容的函数如下,在运行时,每采集一次内存都会增加,不会自动降下来,直到增加到1g多就停止不运行了,请问如何解决!publicstaticstringGetDynamicHtmlFromUrl(stringsinaUrl,Encodingencoding){try{lock(htmldoc){IPersistStreamInitips=(IPersistStreamInit)htmldo

利用PHP制作简单的内容采集器

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的.关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的. 前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用PHP来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网

利用PHP制作简单的内容采集器的代码_php技巧

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的.关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的.  前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展.  用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读

利用PHP制作简单的内容采集器的原理分析_php技巧

前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的. 下面就一步一步来讲功能实现. 因为是采集小说,所以首先要将书名.作者.类型这三个提取出来,别的信息可根据需要提取. 这里以

php 网页采集入库程序代码

php 网页采集程序总结,最近帮朋友做了个采集程序 以www.xxxx.com/shop_list.php?page=1&province=%B1%B1%BE%A9为例 %B1%B1%BE%A9是gb2312的转码,例如 $aa="北京"; $aa = @iconv("utf-8″, "gb2312″,$aa); echo $bb=urlencode($aa); 我们通过file_get_contents($url) 抓取网页 当然也可以是curl func

用xmlhttp编写web采集程序_小偷/采集

晰带语法着色的版本:http://gwx.showus.net/blog/article.asp?id=229 原创很辛苦,转载请注明原文链接:http://gwx.showus.net/blog/article.asp?id=229 web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的.本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :-) 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp

用xmlhttp编写web采集程序

晰带语法着色的版本:http://gwx.showus.net/blog/article.asp?id=229 原创很辛苦,转载请注明原文链接:http://gwx.showus.net/blog/article.asp?id=229 web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的.本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :-) 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp

利用Python实现简单的相似图片搜索的教程

  利用Python实现简单的相似图片搜索的教程         这篇文章主要介绍了利用Python实现简单的相似图片搜索的教程,文中的示例主要在一个图片指纹数据库中实现,需要的朋友可以参考下 大概五年前吧,我那时还在为一家约会网站做开发工作.他们是早期创业公司,但他们也开始拥有了一些稳定用户量.不像其他约会网站,这家公司向来以洁身自好为主要市场形象.它不是一个供你鬼混的网站--是让你能找到忠实伴侣的地方. 由于投入了数以百万计的风险资本(在US大萧条之前),他们关于真爱并找寻灵魂伴侣的在线广告

简单实用 网页制作超级技巧

技巧|网页 一.让文字改变颜色 在有些网页我们可以看到一些文字,当鼠标移上去是一种颜色,移开就是另外一种颜色,这是怎么样实现的呢? 原来我们只需要在Head内预先定义两个类,分别定义了两种颜色,这在后面的HTML源文件中会用到这个颜色的定义: <style> .normal {color:red;} .start {color:blue;} </style> 然后我们在要改变的字前后加上下面的代码: <SPAN onmouseover = "this.classNa