帝国cms采集图文教程(中)

  上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。帝国的内容分页形式有两种:(1)全部列出式(2)上下页导航式,但是这两种内容分页形式有什么区别,采集内容分页时该用哪种,官方说得比较模糊,对此有些同学感到很头大,好的,我们先看下例子:

  一、全部列出式

  全部列表式只需看第一页的页面HTML代码,这一页的所有分页链接都列出来了。

  1、我们以“中华网内容分页(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”为例:

  

  可以看到这条新闻总共有3条分页。

  2、查看源代码:

  

  这一页里除了已经采集到的第1条分页外,还包括了第2条和第3条分页,所有的分页都列出来了。

  3、取得 分页区域正则([!--smallpageallzz--]):

  

  4、取得 分页链接正则([!--pageallzz--]):

  

  二、上下页导航式

  上下页导航式是分页采集的难点,他需要所有页面都符合分页正则才行,在不熟悉的情况下,我们可以用第1页和第2页的代码来进行对比分析然后确定分页正则。

  1、我们以“爱丽网内容分页(http://fashion.aili.com/76/445845.html)”为例:

  

  可以看到这条新闻总共有20条分页。

  2、查看源代码:

  

  这一页里除了已经采集到的第1条分页外,还包括了第2,第3,第4,第5,第6,第7,第8,第20条分页,但是第9到第19条分页并没有列出来,这时候我们拿用第1页和第2页的代码来进行对比分析,来确定分页正则:

  (1)第1页代码:

  

  (2)第2页代码:

  

  从这两幅图片可以看到他们有着相同的“分页区域开始代码”,“分页链接”格式,“分页区域结束代码”,那么就可以确定“分页区域正则”,“分页链接正则”。

  3、取得 分页区域正则([!--smallpageallzz--]):

  

  4、取得 分页链接正则([!--pageallzz--]):

  

  5、为了方便教程显示,newstext我采集了标题而不是采集内容,预览结果:

  

  注意事项:

  第一、在第一页的页面HTML代码里,内容分页链接全部列出来的情况下我们使用“全部列出式”。在第一页的页面HTML代码里,内容分页链接没有全部列出来的情况下我们使用“上下页导航式”。

  第二、用全部列出式时,采集规则正确但是莫名其妙的出现重复的分页,这时可以利用替换法把它过滤掉(下一讲我们再说)。

  第三、用上下页导航式时,老是采到第1页,其他页连个影子都没有见过,这是因为分页区域正则([!--smallpagezz--])截取错误。

  第四、用上下页导航式时,可以采集到前几页了,但是接下来这前几页全部重复循环到底,这也是因为分页区域正则([!--smallpagezz--])截取错误,截取范围过大,导致重复截取前几个分页链接。

  好的,这一讲就到这里,下一讲我们主要介绍帝国cms采集过滤和替换。

  本文由 国外网站大全http://www.kguowai.com/ 原创,转载请注明出处,谢谢!

帝国cms采集图文教程(上)

时间: 2025-01-25 02:14:20

帝国cms采集图文教程(中)的相关文章

帝国cms采集图文教程(上)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 帝国cms是我们用得比较多得PHP的建站系统,在建站过程中,如果自己没有信息源,只能靠手工不断的重复copy和粘贴,这样费时费力,于是我们就要使用帝国cms自带的采集功能来完成信息的录入.为了深入了解帝国cms采集功能,下面我们以"新浪各地新闻"栏目为例来进行实战采集. 一.增加采集节点 1.添加节点: 2.选择要增加采集

帝国cms采集信息常用规则教程

帝国cms采集信息常用规则教程 打开帝国后台,点击上面的栏目,左边的栏目管理里面有增加采集借点,进入. 中间提示要选择要创建的栏目点击你要创建的栏目,比如国际新闻.好吧,点了就进去了.出现的界面有先节点名称,因为上面创建的是国际新闻这里就填写国际新闻父节点不用管(就是不填) 页面采集地址,你可以去新浪的国际新闻那里复制一下,比如国际新闻几面的地址,地址栏复制一下就可以了. 采集页面地址方式二不用管不填内容页地址前缀写成 图片/FLASH地址前缀(内容)~~~截取内容简介这里都不用管开始填写采集内

如何删除帝国cms面包屑导航中首页链接的/index.html

前面一篇"帝国cms面包屑导航的首页链接锚文本改成关键字"中xmyanke有写到改首页链接的方法,但是感觉比较麻烦,这里就说说如何删除帝国cms面包屑导航中首页链接的/index.html,我们的首页一般都是***.com/结尾的,如果Breadcrumb的中首页链接变成***.com/index.html结尾的话,会造成有两个首页,分散权重.重复收录.(当然可以把index.html 301到不带index.html) 找到e/class/connect.php,搜索$file=$p

火车头采集器3.0采集图文教程_php技巧

以采集示例详解部分功能今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始.如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维:如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间.以下是一些采集的基本步骤,您可以灵活运用:一.建立站点1.请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通

为帝国cms模板添加站内搜索小教程

由于客户的需要,最近都在整帝国cms,很多东西还是不熟悉,特别是帝国cms模板,以前用的那些网站模板一般是保存在ftp文件中,而帝国cms模板是直接保存在数据库中,修改是在网站后台的模板管理,得慢慢适应. 这几天接到一个站,整体是做得差不多了,就是有很多细节还没解决,例如帝国cms站内搜索还不能实现.本着好奇的新鲜,就随着xmyanke一起来鼓捣一下吧. 在本帝国cms模板修改案例中,站内搜索是放在网站头部右上角,那么我们就在后台-模板-公共模板变量-管理模板变量-页面头部[!--temp.he

怎么样写帝国cms分页采集规则?

现在来看看如何写帝国cms采集分页规则. 第一种: <p align='center'><b><font color='red'>[1]</font> <a href='/Eat/RMenu/200806/38611_2.html'>[2]</a> <a href='/Eat/RMenu/200806/38611_3.html'>[3]</a> <a href='/Eat/RMenu/200806/386

帝国cms面包屑导航的首页链接锚文本改成关键字

帝国cms面包屑导航的首页链接关键字一般都是"首页"二字或home,如果你想从这里提高锚文字的相关性,可以改成相应的关键字,那么如何来修改呢? 我们知道帝国CMS面包屑导航的变量是[!--newsnav--],这个变量在哪里定义呢?在语言文件里面!打开e/data/language/gb/pub/fun.php,搜索"'index'=>'首页',",帝国CMS 7.0版本大约在91行,改成"'index'=>'你要设置的关键词',".

帝国cms制作手机wap站教程 和pc站一个数据库

帝国cms制作手机wap站教程 操作前,我们需要先对网站数据库进行备份. 接下来我们添加手机站的模板组.点击"模板", 选择"模板组管理"中的"导入/导出模板组",然后选择默认的模板组,然后导出,将导出文件先保存下来.然后将模板组名称更改为"电脑访问模板组".再从右边的"导入模板组"上传刚刚导出的文件;这时会出现两个模板组.然后我们可以对默认的模板组更名为"手机访问模板组". 接下来,对

Windows系统中安装nodejs图文教程

  这篇文章主要介绍了Windows系统中安装nodejs图文教程,本文分解了安装中的各个步骤并给出图文说明,需要的朋友可以参考下 第一步:下载安装文件 官网下载地址:http://www.nodejs.org/download/ 第二步: 安装步骤 第三步:检测是否安装完成