DEDE采集程序原理

摘要: DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,

DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。

DEDE采集程序原理

DEDECMS的采集原理很简单: 通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。不过这里面有一个不足之处——不支持部分采集。如果我们仅仅要获得对方网页的标题,却下载了整张网页。一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。此时我们此处仅仅需要获得对方网页的标题而已。

修改文件dedehttpdown.class.php

要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。使用notepad++或者dreamweaver 打开 /include/dedehttpd.class.php:

(1)第118行 $this->m_html = '';背后加入$this->dataLimit = 0;

(2)第 285行$this->m_html .= fgets($this->m_fp,256); 背后加入 if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。

使用方法:

$remoteURL = ‘http://www.***.com/info/fabu/’;

$dh = new DedeHttpDown();

$dh->OpenUrl($remoteURL);

$dh->dataLimit = 1024;

$remoteHTML = $dh->GetHtml();

我们只需要在 $dh->OpenUrl($remoteURL);背后加入 $dh->dataLimit = 1024;(你想采集的字节大小)即可。  通过这样的方法,我们可以更节约服务器资源。

时间: 2024-10-24 23:17:40

DEDE采集程序原理的相关文章

PHP 采集程序原理分析篇_php技巧

苦想了几天,终于弄明白了里面的道理.在这里写出来,请高手指正. 采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理.下面以一个很简单的例子来说说. 首先确定一个采集页,一般就是列表面了.这里目标是:http://www.jb51.net/article/11/index.htm.这是一个列表页,我们的目的就是采集这个列表页上全部的文章. 有列表页了,第一步先打开它,把它的内容纳入到我们的程序中

asp 小偷采集程序原理与常用函数方法_小偷/采集

用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有: 不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些. 一.事例 下面就XMLHTTP在ASP中的应用做个简单说明 复制代码 代码如下: <% '常用函数 '1.输入url目标网页地址,返回值getH

asp 小偷采集程序原理与常用函数方法

用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有: 不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些. 一.事例 下面就XMLHTTP在ASP中的应用做个简单说明 复制代码 代码如下: <% '常用函数 '1.输入url目标网页地址,返回值getH

PHP实现采集程序原理和简单示例代码_php实例

<entry SKIPIFREF="YES">  <title>I Believe In Love</title>  <author> 蓝牙音乐网 - 8391.com</author>  <copyright> 蓝牙音乐网 - 8391.com</copyright>  <ref href="http://218.78.213.183:880/daolianmtvfuc________

浅谈自动采集程序及入库ASP的实现

采集|程序|采集     最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单. 原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.

浅谈ASP自动采集程序及入库

采集|程序 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.简单事例: 1<

浅谈自动采集程序及入库

采集|程序|采集 <SPAN id=ArticleContent1_ArticleContent1_lblContent><SPAN style="FONT-SIZE: 12px">最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.<BR>原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的

asp 采集程序常用函数分析_小偷/采集

原理 采集程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页.比如新闻采集程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤.用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在

asp 采集程序常用函数分析

原理 采集程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页.比如新闻采集程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤.用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在