batchcollect pagecollect来自官方杰奇jieqi定时采集配置方法参数详解第1/2页_杰奇cms

前言

要实现采集，默认方式是根据配置好的采集规则，在浏览器提交相应的参数即可完成后面的采集入库全部动作。
而实现定时采集，与人工在浏览器提交有些区别，主要分两大步骤：
一、编写采集的url和相关参数，访问这个url即可实现想要的采集模式。（这个url直接在浏览器提交同样可以实现采集）
二、把定时访问这个url的功能加到系统的定时任务里面，实现无人值守的定时采集。

具体实现方法请参考下面内容：

1、对采集配置文件的解释

任何一个采集都会用到两个采集配置文件（跟后台采集规则配置对应），都可以用文本编辑器打开查看。
其中 /configs/article/collectsite.php 是对总的采集站点配置，记录了一共允许采集哪几个站点。
里面包含类似这样的内容：

$jieqiCollectsite['1']['name'] = '采集站点一';
$jieqiCollectsite['1']['config'] = 'abc_com';
$jieqiCollectsite['1']['url'] = 'http://www.abc.com';
$jieqiCollectsite['1']['subarticleid'] = 'floor($articleid/1000)';
$jieqiCollectsite['1']['enable'] = '1';

$jieqiCollectsite['2']['name'] = '采集站点二';
$jieqiCollectsite['2']['config'] = 'def_net';
$jieqiCollectsite['2']['url'] = 'http://www.def.net';
$jieqiCollectsite['2']['subarticleid'] = '';
$jieqiCollectsite['2']['enable'] = '1';

参数含义解释如下：
['1'] - 这里的 1 表示采集网站的数字序号，不同的采集站序号不能重复。
['name'] - 采集网站名称。
['config'] - 网站英文标识，这个网站采集规则配置文件有关，比如这个值是 abc_com ，那么采集规则配置文件就是 /configs/article/site_abc_com.php。
['url'] - 采集网站网址。
['subarticleid'] - 采集网站，文章子序号运算方式，本项目主要为了兼容以前程序，新版本里面文章子序号可以通过采集获得。
['enable'] - 是否允许采集，1 表示允许，0 表示禁止，默认为 1。

如前面所说，每个采集网站有个专门的采集规则配置文件，/configs/article/ 目录下以 site_ 开头的php文件，如 /configs/article/site_abc_com.php。

里面内容都与后台采集规则设置相对应，具体细节不一一解释。需要了解的是本文件里面内容分两大部分，前面内容都是对网站内容采集规则的配置，而最后面 $jieqiCollect['listcollect']['0']，$jieqiCollect['listcollect']['1'] 这样的设置是对网站"批量采集规则"的配置，比如按最近更新采集、按排行榜采集，可以设置多个。['0'] 这里的数字 0 表示批量采集类别的数字序号，同一个网站也不能重复。

2、编写采集内容的url及参数

这里的采集是针对多篇文章批量采集，分两种模式：
一、按页面批量采集，比如采集最新更新列表或者排行榜列表，每个链接采集一页。
链接格式如下：

http://www.jb51.net/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234

参数含义解释如下：
www.jb51.net - 是指您的网址。
action - 字符串，程序执行的动作命令，固定值为 collect。
siteid - 数字类型，要采集的网站序号，具体哪个网站对应什么序号见配置文件collectsite.php。
collectname - 数字类型，按页面批量采集的类别序号，见配置文件site_xxxx.php里面下面的。$jieqiCollect['listcollect']['0'] 这样配置的数字。
startpageid -- 页码标志，表示从列表的第几页开始采集。一般是数字类型，有些网站也可能是字符串。
maxpagenum -- 数字类型，表示表示一共采集几页。（默认为 1 ，如果要采集多页，是需要浏览器跳转的，只有在windows环境下调用浏览器时候有效，linux下调用wget时候最多只能采集一页，需要采集多页可设置多个采集命令。）
notaddnew -- 数字类型，0-表示采集全部文章，1-表示只更新本站已有的文章。
jieqi_username - 字符串，用户名(这个用户必须是本站有权限采集的用户)。
jieqi_userpassword - 字符串，用户密码。

二、按照文章序号批量采集
链接格式如下：
http://www.jb51.net/modules/article/admin/batchcollect.php?action=bcollect&siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234

参数含义解释如下：
www.jb51.net - 是指您的网址。
action - 字符串，程序执行的动作命令，固定值为 bcollect。
siteid - 数字类型，要采集的网站序号，具体哪个网站对应什么序号见配置文件collectsite.php。
batchids - 要采集的对方网站文章序号（不是本地的文章序号），采集多个文章，序号用英文逗号分开，如 123,234,345。
jieqi_username - 字符串，用户名(这个用户必须是本站有权限采集的用户)。
jieqi_userpassword - 字符串，用户密码。

注：一个url需要放到IE浏览器里面提交的时候，整个url最大长度度不要超过2083字节，所以一般建议这里的url不要设置成太长，文章多的可以拆分成多个url。

3、利用系统任务实现定时采集

一、windows环境下做法

windows里面可以用系统的任务计划来实现定时执行程序，不过首先需要制作一个批处理文件，在这个文件里面用命令来调用浏览器来执行采集url。需要注意的是命令只能打开浏览器而不会采集好之后自动关闭，要实现采集完自动关闭可以通过javascript实现。自动关闭本窗口的js代码为：

这里的参数 3000 是指延迟关闭时间，单位是毫秒，3000表示延迟3秒关闭。
这段代码可以在两个地方加入：

一个是加入到提示信息模板 /themes/风格名称/msgwin.html 里面，<body>和</body>之间加入上面那段js。这样的效果是整个系统任何提示信息页面都会在3秒钟后自动关闭。

如果您希望仅仅自动关闭采集成功后的提示页面，可以在采集提示信息的语言包里面加入以上javascript，这个配置文件是 /modules/article/lang/lang_collect.php，里面 $jieqiLang['article']['batch_collect_success'] 是采集成功的提示信息，这个值原来是：

'恭喜您，全部文章采集完成！';

改成下面这样即可自动关闭

'恭喜您，全部文章采集完成！<script language="javascript"> self.opener=null; setTimeout("window.close();", 3000); </script>';

当前1/2页 12下一页阅读全文

时间： 2024-08-04 01:52:03

batchcollect pagecollect来自官方杰奇jieqi定时采集配置方法参数详解第1/2页_杰奇cms的相关文章

linux定时执行命令crontab命令详解

循环运行的例行性计划任务,linux系统则是由 cron (crond) 这个系统服务来控制的.Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的.另外, 由于使用者自己也可以设置计划任务,所以, Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令. 一.crond简介 crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启

老Y文章管理系统采集自动伪原创详解

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅做垃圾站的站长们,最希望的事就是网站可以自动采集.自动完成伪原创.然后自动收钱,这实在是天底下最幸福的事,呵呵.自动采集和自动收钱就不讨论了,我今天介绍一下如何利用老Y文章管理系统采集时自动完成伪原创的方法. 老Y文章管理系统使用简单.方便,虽然功能不如DEDE之类的强大到几乎变态的程度(当然,老Y文章管理系统是asp语言写的,似乎也没有可比

PHP file_get_contents采集程序开发教程详解

file_get_contents() 远程文件获取函数,用来获取远程页面内容 preg_match_all()进行全局正则表达式匹配,匹配多次,用于匹配列表 preg_match ()进行正则表达式匹配,匹配一次,用于匹配终端 preg_replace ()进行正则表达式替换,用于过滤终端具体步骤 Step 1 获取单页列表和单篇文章内容在批量采集列表和内容之前,我们先将网站的单页列表和单篇文章的内容采集作为测试正则表达式对错. 列表页采集文章的链接地址: 代码如下复制代码 <

Asp WinHttp.WinHttpRequest.5.1 对象使用详解伪造 HTTP 头信息_小偷/采集

由于微软封锁了 XmlHttp 对象,所以无法伪造部分 HTTP 头信息,但是 WinHttp.WinHttpRequest.5.1 对象,它居然用可以成功伪造所有 http 请求的 header 信息! 从msdn得知,WinHttp.WinHttpRequest.5.1 是 msxml 4.0 的底层对象,也就是说 XMLHTTP/ServerXMLHTTP 也是在它的基础上封装而来,WinHttpRequest 的用法与 XmlHttp 大致相同. WaitForResponse 在使用异

php采集神器cURL使用方法详解_php实例

对于做过数据采集的人来说,cURL一定不会陌生.虽然在PHP中有file_get_contents函数可以获取远程链接的数据,但是它的可控制性太差了,对于各种复杂情况的采集情景,file_get_contents显得有点无能为力.因此,本文将为你介绍采集神器cURL的使用. 先给大家补充一下file_get_contents函数可以获取远程链接数据的方法. <?php $url = "http://git.oschina.net/yunluo/API/raw/master/notice.t

如何利用DOS批处理实现定时关机操作详解_DOS/BAT

一.批处理释义: 批处理(Batch),也称为批处理脚本.它是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,应用于DOS和Windows系统中.批处理文件的扩展名为bat. 目前比较常见的批处理包含两类:DOS批处理和PS批处理.PS批处理是基于强大的图片编辑软件Photoshop的,用来批量处理图片的脚本:而DOS批处理则是基于DOS命令的,用来自动地批量地执行DOS命令以实现特定操作的脚本. 二.编写批处理文件: (1)新建一个文本文件,在里面写上DOS命令语句.然后选择另存为改文

aspnet-求定时采集数据的demo

问题描述求定时采集数据的demo 各位大神,谁有定时采集数据的demo,或者给点思路.需要实现的是比如每隔五分钟自动采集www.xxxxxx.com/a.xml的数据.然后保存到数据库. 解决方案 http://www.cnblogs.com/freeliver54/archive/2007/03/06/665625.html采集用httpwebrequest

servlet-急求一个定时采集信息的方法

问题描述急求一个定时采集信息的方法项目需要每隔一段时间就向GPS系统请求船舶的经纬度信息,我负责接口,经理要我用Servlet做这么一个定时采集的功能,有什么简单可行的办法?我没接触过这种,回答的越详细越好,谢谢. 解决方案这个你能不能用定时器解决一下呢?在到一定的时间的时候,他就会自己启动,这样应该可以实现吧,具体我也不是太明白.

JS基于MSClass和setInterval实现ajax定时采集信息并滚动显示的方法_javascript技巧

本文实例讲述了JS基于MSClass和setInterval实现ajax定时采集信息并滚动显示的方法.分享给大家供大家参考,具体如下: setTimeout 用于延时器,只执行一次. setInterval:用于多次执行. 项目中引用到jquery.timers-1.2.js定时器,并且MSClass做信息定期滚动,每3分钟执行一次,执行三次左右,滚动的次数越来越快,原因在于timers和MSClass都用了setInterval, 都会再次添加一个setInterval,最后导致几个setIn

猜你喜欢

我的代码是怎么进入死循环的，为什么有两个线程运行一会就唤不醒了

问题描述 classResource{privateStringname;privateintcount=1;privatebooleanflag=false;publicsynchronizedvo ...

Python基础语法-常量与变量

Python是一门强类型的动态语言. 字面常量,变量没有类型,变量只是在特定的时间指向特定的对象而已,变量所指向的对象是有类型的. 变量:变量在赋值时被创建,它可以是任何对象的引用,但必须在引用前被赋 ...

BetweenAS3 tween engine软件下载

许多人已经在使用tweener. 或是tweenlite, tweenMax. 这里还有另一款不错的tween engine. 可以从这里查看24000个粒子 (19 hits)的运行效果.下载Bet ...

ASP编程要点ABC

简介做为一个ASP编程者,形成一套良好的编程策略至关重要,它有助于我们开发出扩展容易.模块清晰的系统,同时,更能大大地提高完成任务的速度.以下就讨论几个要注意的方面: 使用Server.MapPat ...

photoshop合成作品欣赏

瑞典艺术家埃里克·约翰森(Erik Johannson)用计算机修改他原先的照片,创造出这些令人难以置信.觉得空间错乱的扭曲艺术照. 瑞典艺术家埃里克·约翰森(Erik Johannson)用计算机修 ...

Asp.net中基于Forms验证的角色验证授权

asp.net Asp.net中基于Forms验证的角色验证授权 Asp.net的身份验证有有三种,分别是"Windows | Forms | Passport",其中又以Form ...

拿什么拯救你我的seo

当面对一场战争,假如seo惨败了,我们该如何拯救他呢?我们如何拿关键词与权重高的网站抗衡? 一山更比一山高,强中更有强中手.seo需要的是坚持,在别人喝咖啡的时候,你在学习;在别人睡觉的时候,你在学习 ...

网站优化设计：网站SEO排名的敲门

大家好,我是虚子雨.对于SEO做久了的站长来说,我们肯定会知道一个好的网站不仅仅需要我们在视觉上冲击用户,也要在精神上让用户得到感受,这就是我们常说的用户体验,但是怎么做用户体验更有利于我们网站的SE ...

构建GB2312汉字库的unicode码表

构建 GB2312 汉字库的 unicode 码表嵌入式系统总离不了处理汉字.一般汉字的处理方法是(以手机接受短信为例):比如你收到了一封短信,该短信解码后是按照 UTF-16 表示的,那么我们需 ...

再学GDI+[55]: 路径

通过路径的 Flatten 方法可以把路径中的曲线拉直, 拉直到什么程度是由它的第二个参数( 默认0.25)决定的; 它的第一个参数又是一个矩阵变换, 也就是说 Flatten 可以同时进行矩阵变换 ...

VB.NET为智能设备编写半自动初始化类

一.引言对于ncf(net精简版的英文缩写)开发人员,应用程序选项保存一般只有两种途径选择: 1.将选项的值写入注册表,但如果所有应用程序都将值大量写入注册表的做法最终将导致注册表过大占用系统资源, ...

ISP无线接入系统

ISP集团用户微波干线接入需求与应用分析计算机网络通信协议为TCP/IP: 至少提供>64kbps数据通信率: 由本地路由器实现网络隔离: 建立二级网络,选择地理条件较好的用户建立第二级中心, ...

阿里云如何使用查询路由表列表接口

查询路由表列表描述支持查询专有网络中的路由器(VRouter)和高速通道中的边界路由器(VBR)上的路由表(RouteTable) 查询用户名下路由表的列表.此接口支持分页查询,每页的数量默认为1 ...

Photosho绘制光滑的小石块技巧

石块制作重点是纹理部分.需要用多种滤镜做出初步的纹理,然后用变形工具变形处理做成所需效果.后期叠加到底色上面即可. 最终效果 <photoshop教程图1> 1.新建一个800 * 600 ...

如何能给锁定状态下的Windows 7增加关闭按钮

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 以前我们曾有例证说明,Windows2000/XP和W ...

关于Python的新手问题，2.7版

问题描述关于Python的新手问题,2.7版 hello= input("please input your name, gay:") print "Hello,&qu ...

android的sqlite 上传数据库到ftp，再下载下来后，为什么打不开？

问题描述 android的sqlite 上传数据库到ftp,再下载下来后,为什么打不开? android的sqlite数据库,存在data/data/packagename/databases/下, ...

为用户谋福利，hao123“马上发钱”值得表扬

这个春节,"抢红包"成了最热门的一个互联网话题.腾讯在微信玩抢红包,新浪在微博发红包,阿里支付宝也在发红包--一时间,用户与企业红包齐飞,都玩得不亦乐乎.用户抢的是红包,企业却在抢 ...

物联网数据中心大战看美国科技巨头怎么布局

近年来物联网迎来爆炸式发展, 无论是苹果.谷歌(微博)还是英特尔.Facebook都开始在全球范围内兴建数据中心以更好的服务临近地区用户.许多科技消费者可能没有意识到,在他们每天使用的产品背后,一场激 ...

gizp-delphi7 如何解压java 压缩的 gzip字符串?我这里总提示data error

问题描述 delphi7 如何解压java 压缩的 gzip字符串?我这里总提示data error 5C 如题,哪位大神知道如何解压gzip字符串?初学delphi 求指导. 解决方案雇佣一个程序 ...

开发过程使用Tomcat Maven插件持续快捷部署Web项目

我在平时工作中部署Web项目到测试服务器上的Tomcat时用的是Hudson.Hudson本身已经跟SVN.Git.Maven集成并且支持添加各种插件.但如果使用Hudson,我需要配置两个任务:一个 ...

javax.net.ssl.SSLPeerUnverifiedException: peer not authenticated

问题描述本地服务器测试抛出javax.net.ssl.SSLPeerUnverifiedException: peer not authenticated怎么破? 解决方案这是程序的问题,可以参考 ...

Kaggle大赛：债务违约预测冠军作品解析

债务违约预测债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面.其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策.其二是债权人可以预测这 ...

c语言-为什么第二次调用show_all还能打印出数据，指针不是已经到了链表的最后了吗

问题描述为什么第二次调用show_all还能打印出数据,指针不是已经到了链表的最后了吗 #include #include struct student { int num; float score ...

Hadoop数据迁到MaxCompute

通过最佳实践帮助您实现上述案例效果 Step1:数据准备接下来,我们需要准备好一张表及数据集: Hive表名:hive_dplus_good_sale: 是否分区表:分区表,分区名为pt: hdfs ...

任何卖家和第三方均可入驻微淘，并开通公众账号

1.微淘即将全面公测淘字号商家可直接认证手机淘宝微淘即将全面公测,任何卖家和第三方均可入驻微淘,并开通公众账号.微淘早在今年4月份就开始进入内测阶段,并先后展开3次邀请码的发放.移动是天猫今年双十 ...

FreeTextBox 使用问题

问题描述我用FreeTextBox编辑器,输入的html编码,怎么在后台接收到啊?stringstr=Server.HtmlEncode(FreeTextBox1.Text);orstringstr ...

android-Failedto install *.apk on device&amp;#39;emulator5554&amp;#39;

问题描述 Failedto install *.apk on device'emulator5554' 我刚学Android不久,写了几个简单的程序,突然就遇到这个问题,我也是醉了!问题就是: 我之前 ...

JavaWeb工程中集成YMP框架快速上手（二）_java

本文将介绍如何在Java Web工程中集成YMP框架,操作过程基于IntelliJ IDEA做为开发环境,工程结构采用Maven构建: IntelliJ IDEA下载地址: https://www.j ...

魔鬼字典 JavaScript 笔记代码比较多乱第1/3页_javascript技巧

//2005中ctrl+J 有可能出提示 //文本编辑出注释的快捷键名词解释: { //Java: 爪哇语言, 在因特网世界范围的 web 网页运转的以网络为基础的编程语言 (计算机用语) //Sc ...

热搜