DEDE 4.0 自动采集源文件 提供了_整站程序

DEDE 4.0 自动采集源文件
放在网站跟目录
WINDOWS系统 建立个 ****.cmd 内容  
D:\php\php-cgi E:\wwwroot\**\cj.php
再做个计划任务就可以了(D:\php\php-cgi E:\wwwroot\**\cj.php 知道是什么吧)
LINUX 系统定时间任务偶不会 一样是 运行 cj.php 会的可以回复下

cj.php  源文件

复制代码 代码如下:

<?php 
//要放别的目录请改路径 
require_once(dirname(__FILE__)."/include/config_base.php"); 
require_once(dirname(__FILE__)."/include/pub_collection.php"); 
require_once(dirname(__FILE__)."/include/pub_datalist.php"); 
require_once(dirname(__FILE__)."/include/inc_functions.php"); 
require_once(dirname(__FILE__)."/include/pub_dedetag.php"); 
require_once(dirname(__FILE__)."/include/inc_archives_view.php"); 
require_once(dirname(__FILE__)."/include/inc_arclist_view.php"); 
//添加数据 采集栏目名称,采集栏目ID, 前台栏目名称,前台栏目ID  有几个就填写几行 
$makearr = array(); 
array_push($makearr,array('采集一',1,'分类一',25)); 
array_push($makearr,array('采集二',2,'分类二',26)); 
//其它一些参数 
$makehtml = 1 ;//生成文章 
$threadnum  = 5 ; //间隔时间 
$pagesize = 5; //设置线程 
$islisten = 0 ; //附加选项 不下载曾下载的网址-> 0 ; 仅下载未下载内容->-1; 重新下载所有内容->1 
$sptime = 0 ; //防刷新的站点需设置  x秒 
$channelid = 1 ;//导入的文章模型 
$web = "www-data"; //web用户 
$webgroup = "www-data"; //web用户组 
$onlytitle = 1 ; // 
while(sizeof($makearr)>0){ 
        $nid = $makearr[0][1]; //采集栏目ID 
        $typeid = $makearr[0][3]; //前台栏目ID 
        array_shift($makearr); 
        //采集 
        //多线程模式初次设置 
        $co = new DedeCollection(); 
        $co->Init(); 
        $co->LoadFromDB($nid); 
        $co->GetSourceUrl(); 
        $co->dsql->SetQuery("Update #@__conote set lasttime='".mytime()."' where nid=$nid"); 
        $co->dsql->ExecuteNoneQuery(); 
        $co->dsql->SetQuery("Select aid,url From #@__courl where nid=$nid "); 
        $co->dsql->Execute(99); 
        while($row = $co->dsql->GetObject(99)) 
        { 
                $lrow = $co->dsql->GetOne("Select * From #@__co_listenurl where url like  
'".addslashes($row->url)."'"); 
                if(is_array($lrow)){ 
                        if($islisten==0) continue; 
                } 
                else{ 
                        echo $inquery = "INSERT INTO #@__co_listenurl(nid,url) VALUES ('$nid',  
'".addslashes($row->url)."');"; 
                        $co->dsql->ExecuteNoneQuery($inquery); 
                } 

                $co->DownUrl($row->aid,$row->url); 
                if($sptime>0) sleep($sptime); 

        } 
        $co->Close(); 
        //导入到当前的数据库并生成html 
        $dsql = new DedeSql(false); 
        $maxidrow = $dsql->GetOne("Select max(ID) as maxid From #@__archives where typeid=$typeid  
;"); 
        $maxart_id = $maxidrow['maxid']; 
        $mrow = $dsql->GetOne("Select count(*) as dd From #@__courl where nid='$nid'"); 
        $totalcc = $mrow['dd']; // 
        $rrow = $dsql->GetOne("Select typeid From #@__conote where nid='$nid'"); 
        $ruleid = $rrow['typeid']; 
        $rrow = $dsql->GetOne("Select channelid From #@__co_exrule where aid='$ruleid'"); 
        $channelid = $rrow['channelid']; 
        if(!isset($channelid)) $channelid = 0; 
        if(!isset($typeid)) $typeid = 0; 
        if(!isset($makehtml)) $makehtml = 0; 
        if(!isset($onlytitle)) $onlytitle = 1; 
        $dsql = new DedeSql(false); 
        $row = $dsql->GetOne("Select * From #@__co_exrule where aid='$ruleid'"); 
        if(!is_array($row)){ 
                echo "找不到导入规则,无法完成操作!"; 
                $dsql->Close(); 
                continue; 
        } 
        //分析规则,并生成临时的SQL语句 
        $dtp = new DedeTagParse(); 
        $dtp->LoadString($row['ruleset']); 
        $noteinfo = $dtp->GetTagByName('note'); 
        $tablenames = explode(",",$noteinfo->GetAtt('tablename')); 
        $autofield = $noteinfo->GetAtt('autofield'); 
        $synfield = $noteinfo->GetAtt('synfield'); 
        $tablename1 = $tablenames[0]; 
        $tb1SqlKey = "Insert Into $tablename1("; 
        $tb1SqlValue = " Values("; 
        if(count($tablenames)>=2){ 
                $tablename2 = $tablenames[1]; 
                $tb2SqlKey = "Insert Into $tablename2("; 
                $tb2SqlValue = " Values("; 
                if($synfield!=''){ 
                        $tb2SqlKey .= $synfield; 
                        $tb2SqlValue .= "'@$synfield@'"; 
                } 
        } 
        else{ 
                $tablename2 = ""; 
                $tb2SqlKey = ""; 
                $tb2SqlValue = ""; 
        } 
        $exKeys = Array(); 
        foreach($dtp->CTags as $tagid => $ctag) 
        { 
                if($ctag->GetName()=='field') 
                { 
                        $fieldname = $ctag->GetAtt('name'); 
                        $tbname = $ctag->GetAtt('intable'); 
                        if($tbname==$tablename1){ 
                                $tb1SqlKey .= ",$fieldname"; 
                                if($ctag->GetAtt('source')!='value'){ 
                                        $tb1SqlValue .= ",'@#{$tbname}.{$fieldname}#@'"; 
                                }else{ 
                                        $nvalue = str_replace('{tid}',$typeid,$ctag->GetInnerText 
()); 
                                        $nvalue = str_replace('{cid}',$channelid,$nvalue); 
                                        $nvalue = str_replace('{rank}',0,$nvalue); 
                                        $nvalue = str_replace('{admin}',"1",$nvalue); 
                                        $tb1SqlValue .= ",'$nvalue'"; 
                                } 
                        } 
                        else if($tbname==$tablename2){ 
                                $tb2SqlKey .= ",$fieldname"; 
                                if($ctag->GetAtt('source')!='value'){ 
                                        $tb2SqlValue .= ",'@#{$tbname}.{$fieldname}#@'"; 
                                }else{ 
                                        $nvalue = str_replace('{tid}',$typeid,$ctag->GetInnerText 
()); 
                                        $nvalue = str_replace('{cid}',$channelid,$nvalue); 
                                        $nvalue = str_replace('{rank}',0,$nvalue); 
                                        $tb2SqlValue .= ",'$nvalue'"; 
                                } 
                        } 
                } 
        } 
        $tb1SqlKey = str_replace('(,','(',$tb1SqlKey).")"; 
        $tb1SqlValue = str_replace('(,','(',$tb1SqlValue).");"; 
        $tb1Sql = $tb1SqlKey.$tb1SqlValue; 
        if($tablename2!="") 
        { 
                $tb2SqlKey = str_replace("(,","(",$tb2SqlKey).")"; 
                $tb2SqlValue = str_replace("(,","(",$tb2SqlValue).");"; 
                $tb2Sql = $tb2SqlKey.$tb2SqlValue; 
        } 
        //导出数据的SQL操作 
        $dsql->SetQuery("Select * From #@__courl where nid='$nid' order by aid asc "); 
        $dsql->Execute(); 
        while($row = $dsql->GetObject()) 
        { 
                $tmpSql1 = $tb1Sql; 
                $tmpSql2 = $tb2Sql; 
                $dtp->LoadString($row->result); 
                $aid = $row->aid; 
                if(!is_array($dtp->CTags)){ continue; } 
                if($onlytitle){ 
                        $titletag = ''; 
                        foreach ($dtp->CTags as $ctag){ 
                                $tvalue = $ctag->GetAtt("name"); 
                                if($tvalue == '#@__archives.title' || $tvalue ==  
$cfg_dbprefix.'archives.title'){ 
                                        $titletag = $ctag; 
                                        break; 
                                } 
                        } 
                        if(is_object($titletag)){ 
                                $title = trim(addslashes($titletag->GetInnerText())); 
                                $testrow = $dsql->GetOne("Select count(ID) as dd From #@__archives  
where title like '%$title%'"); 
                                if($testrow['dd']>0){ 
                                        echo "数据库已存在标题为: {$title} 的文档,程序阻止了此内 
容导入<br/>"; 
                                        continue; 
                                } 
                        } 
                } 
                foreach($dtp->CTags as $ctag) 
                { 
                        if($ctag->GetName()!="field") continue; 
                        $tvalue = $ctag->GetAtt("name"); 
                        $tmpSql1 = str_replace('@#'.$tvalue.'#@',addslashes($ctag->GetInnerText 
()),$tmpSql1); 
                        if($tablename2!=""){ 
                                $tmpSql2 = str_replace('@#'.$tvalue.'#@',addslashes($ctag- 
>GetInnerText()),$tmpSql2); 
                        } 
                } 
                $tmpSql1 = ereg_replace('@#(.*)#@','',$tmpSql1); 
                $rs = $dsql->ExecuteNoneQuery($tmpSql1); 
                if($rs && $tablename2!=""){ 
                        if($synfield!=""){ 
                                $lid = $dsql->GetLastID(); 
                                $tmpSql2 = str_replace("@$synfield@",$lid,$tmpSql2); 
                                $rs = $dsql->ExecuteNoneQuery($tmpSql2); 
                                if(!$rs) $dsql->ExecuteNoneQuery("Delete From $tablename1 where  
$autofield='$lid'"); 
                        } 
                        else $dsql->ExecuteNoneQuery($tmpSql2); 
                } 
                $dsql->ExecuteNoneQuery("update #@__courl set isex=1 where aid='$aid'"); 
        } 
        $dsql->Close(); 
        //生成html 
        if($channelid>0 && $makehtml==1){ 
                if(!$maxart_id) $maxart_id =0; 
                $dsql = new DedeSql(false); 
                $dsql->SetQuery("Select ID From #@__archives where typeid=$typeid and ID  
>$maxart_id ;"); 
                $dsql->Execute(); 
                while($row=$dsql->GetObject()) 
                { 
                        $ID = $row->ID; 
                        $ac = new Archives($ID); 
                        $rurl = $ac->MakeHtml(); 
                        $ac->Close(); 
                } 
                $dsql->Close(); 
        } 
        //生成首页 
        $templet  = "{style}/index.htm"; 
        $templet = str_replace("{style}",$cfg_df_style,$templet); 
        $homeFile = dirname(__FILE__)."/index.html"; 
        $homeFile = str_replace("\\","/",$homeFile); 
        $homeFile = str_replace("//","/",$homeFile); 
        $fp = fopen($homeFile,"w") or die("你指定的文件名有问题,无法创建文件"); 
        fclose($fp); 
        $pv = new PartView(); 
        $pv->SetTemplet($cfg_basedir.$cfg_templets_dir."/".$templet); 
        $pv->SaveToHtml($homeFile); 
        $pv->Close(); 


$dsql = new DedeSql(false); 
$dsql->SetQuery("Select ID,typedir From #@__arctype;"); 
$dsql->Execute(); 
while($row=$dsql->GetObject()) 

        //生成列表html 
        $lv = new ListView($row->ID); 
        $lv->MakeHtml(); 
        $lv->Close(); 

$dsql->Close(); 
?>

时间: 2024-10-07 02:01:34

DEDE 4.0 自动采集源文件 提供了_整站程序的相关文章

IIS 7.0: 使用集成的ASP.NET管道增强应用程序

本文以 IIS 7.0 FastCGI 组件的预发布版为基础.文中包含的所有信息均有可能变更. 本文 讨论: ASP.NET 集成模式 添加用户身份验证 启用对搜索引擎友好的 URL 使 用输出缓存提升性能 本文使用了以下技术:IIS 7.0, .NET Framework 大约一年前,我撰写了 一篇 IIS 7.0 概述,发表在<MSDN 杂志>上(请参阅 msdn.microsoft.com/msdnmag/issues/07/03/IIS7 上的"IIS 7.0:探索用于 Wi

浅谈自动采集程序及入库ASP的实现

采集|程序|采集     最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单. 原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.

浅谈ASP自动采集程序及入库

采集|程序 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.简单事例: 1<

浅谈自动采集程序及入库

采集|程序|采集 <SPAN id=ArticleContent1_ArticleContent1_lblContent><SPAN style="FONT-SIZE: 12px">最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.<BR>原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的

asp自动采集入库方法

采集 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.简单事例: <%'声明

自动采集入库方法(ASP程序)

采集|程序 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.简单事例: <%

ftp服务器-java如何实现数据文件的自动采集?新手请教

问题描述 java如何实现数据文件的自动采集?新手请教 根据指定的目录,从FTP服务器将不定时推送的新文件采集到对应的数据库中,并且不会重复采集.文件基本是用YYYYMMDDHH格式的文件名区分,提供一下程序或者思路参考学习下 解决方案 首先,分析你要采集的信息是什么,对应设计你的数据库: 其次,编写文件内容处理的代码,解析文件的内容,生成解析后的数据,使用jdbc或者ORM框架完成数据入库: 最后,使用FTP连接工具如FTPClient,定时从服务器指定目录下载文件,循环调用文件解析模块,并记

form表单数据的自动采集的js方法

  说到form数据的自动采集, 大家一定会想到用struts, 又或者ext的相关功能,   而我在一个项目中,遇到一种情况,需要通过jquery的ajax的方式提交表单, 所以我需要把表单中的数据,自动采集然后放入ajax的参数列表中. 下面给出自己写的这段js,原理很简单,希望对大家有所帮助: function getFormParaList() {    var items =document.forms[0].elements;  var map={};  if(items)  {  

php自动采集内容中带有图片地址的远程图片保存到本地

php自动采集内容中带有图片地址的远程图片保存到本地 function my_file_get_contents($url, $timeout=30) {  if ( function_exists('curl_init') )  {   $ch = curl_init();   curl_setopt ($ch, curlopt_url, $url);   curl_setopt ($ch, curlopt_returntransfer, 1);   curl_setopt ($ch, cur