dede3.1分页文字采集过滤规则详说(图文教程)_php技巧

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题

一、范例部分
范例分页区域代码:
范例分页区域代码:
'700')this.width='700';" border=0>
范例分页区域取样代码:
  分页区域取样(匹配):
'700')this.width='700';" border=0>

范例分页内容过滤规则:
分页内容过滤规则:
'700')this.width='700';" border=0>
范例采集内容预览:
范例采集内容预览:
'700')this.width='700';" border=0>

范例全代码(说明:此代码为在原基础上进行更改后的代码,原代码版本不同,直接导入后无效,因此在dede论坛中有许多朋友说过‘直接导入人家的代码都不能用',确实如此):
输出结果:http://wen.soudata.net/html/guizeceshi/caijibiji/20070327/2044_2.html
与原文比较下吧:http://www.xiaocao.com/text/class1/class1/200609/text_28623.html
这是全部的代码,可导入试下:

复制代码 代码如下:

{!-- 节点基本信息 --}

{dede:item name='论坛范例_工作总结_成功(改)'
    imgurl='/upimg' imgdir='../upimg' language='gb2312' typeid='1' macthtype='string'}
{/dede:item}

{!-- 采集列表获取规则 --}

{dede:list source='var' sourcetype='archives' 
          varstart='' varend=''}
  {dede:url value='http://www.xiaocao.com/text/class1/class1/200609/text_28623.html'}{/dede:url}    
  {dede:need}{/dede:need}
  {dede:cannot}{/dede:cannot}
  {dede:linkarea}[var:区域]{/dede:linkarea}
{/dede:list}

{!-- 网页内容获取规则 --}

{dede:art}
{dede:sppage sptype='full'}<p align='center'><b><font color='red'>[1]</font>[var:分页区域]</b>{/dede:sppage}

  {dede:note field='dede_archives.title' value='[var:内容]' comment='文章标题' 
  isunit='' isdown=''}

    {dede:match}<title>[var:内容]</title>{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.sortrank' value='[var:内容]' comment='排序级别' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.writer' value='[var:内容]' comment='文章作者' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = @litpic;{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}if(@me!="") @me = GetMkTime(@me);
else @me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.senddate' value='[var:内容]' comment='录入时间' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}@me = time();{/dede:function}

  {/dede:note}

  {dede:note field='dede_addonarticle.body' value='[var:内容]' comment='文章内容' 
  isunit='1' isdown=''}

    {dede:match}<script language="JavaScript" type="text/javascript" src="/AD/artcontent.js"></script>[var:内容]<table width="100%" border="0" cellspacing="0" cellpadding="0">
{/dede:match}
        {dede:trim}<p align='center'><b>(.*)</b></p>{/dede:trim}

    {dede:function}{/dede:function}

  {/dede:note}

  {dede:note field='dede_archives.source' value='[var:内容]' comment='文章来源' 
  isunit='' isdown=''}

    {dede:match}{/dede:match}

    {dede:function}{/dede:function}

  {/dede:note}
{/dede:art}

时间: 2024-09-18 00:26:03

dede3.1分页文字采集过滤规则详说(图文教程)_php技巧的相关文章

dede3.1分页文字采集过滤规则详说(图文教程)续二_php技巧

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动.以不变就万变地解决分页采集问题.二.采集新目标 目标地址:1.http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html2.http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和

dede3.1分页文字采集过滤规则详说(图文教程)续四_php技巧

至此,分页内容匹配进行完毕.  文章内容匹配.分页内容匹配都进行完后,最后就只有"过滤"了,包括分页区域过滤和文章内容过滤.据本人的感觉,上面的两个规则都好写,只要找到全部链接中的"唯一性"代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙--哈哈,感觉就是这样.尤其如我一般的新手,对"正则"这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了.  好了,闲话了.也累了,听听<加州旅馆&g

火车头采集器3.0采集图文教程_php技巧

以采集示例详解部分功能今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始.如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维:如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间.以下是一些采集的基本步骤,您可以灵活运用:一.建立站点1.请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通

php通过两层过滤获取留言内容的方法_php技巧

本文实例讲述了php通过两层过滤获取留言内容的方法.分享给大家供大家参考,具体如下: //两层过滤,获取留言的内容 $str='<div id="read_111111" style="font-size:14px;line-height:150%;padding:10px;">测试文字1<div id="lwd_12223"><h6 class="quote"><span class

编写PHP脚本过滤用户上传的图片_php技巧

示例   下载 我在phpclasses.org上面偶然发现一个很有用的,由Bakr Alsharif开发的可以帮助开发者基于皮肤像素点来检测图片裸照的类文件. 它会分析在一张图片的不同部分使用的颜色,并决定其是否匹配人类皮肤颜色的色调. 作为分析的结果,他会返回一个反映图片包含裸露的可能性的分值. 此外,他还可以输出被分析的图片,上面对使用给定颜色的肤色的像素进行了标记. 当前它可以对PNG,GIF和JPEG图片进行分析. 下面展示了如何使用这个PHP类. 让我们先从包含裸体过滤器,nf.ph

dedecms采集中可以过滤多行代码的正则表达式_php技巧

过去用dede采集,总是过滤不掉一行以上的代码,只能一行行的过滤,在网上,发现有很多和我一样的菜鸟.随着不断的使用dede采集,对正则有了更进一步的了解,现在偶用一句正则表达式,同样可以匹配多行代码了. 如:在如下代码中,过滤掉有二行代码的超级链接. <td align="center"> <a href="http://www.XXX.com/111111.htm">XXX XXX</a> </td> 用下面的过滤,

PHP入门教程之字符串处理技巧总结(转换,过滤,解析,查找,截取,替换等)_php技巧

本文实例总结了PHP字符串处理技巧.分享给大家供大家参考,具体如下: Demo1.php <?php //源代码是文本形式,页面显示是 web 形式 $str = ' PHP '; //清理一下两边的空格 ltrim 只清理左,rtrim只清理右边 echo ltrim($str); echo '<br/>'; echo rtrim($str); echo '<br/>'; //两边都清理 echo trim($str); //echo chop($str); ?> D

手把手教你使用DedeCms的采集的图文教程_php文摘

这是我们要采集的目标网址------------------------------------------------------------- 看看分页是怎么设置的--------------------------------------------------- 标题里有些多出来的东西处理一下--------------------------------------------------------- 其它内容--------------------------------- 文章b

PHP防范SQL注入的具体方法详解(测试通过)_php技巧

一个优秀的PHP程序员除了要能顺利的编写代码,还需要具备使程序处于安全环境下的能力.今天我们要向大家讲解的是有关PHP防范SQL注入的相关方法. 说到网站安全就不得不提到SQL注入(SQL Injection),如果你用过ASP,对SQL注入一定有比较深的理解,PHP的安全性相对较高,这是因为MYSQL4以下的版本不支持子语句,而且当php.ini里的 magic_quotes_gpc 为On 时. 提交的变量中所有的 ' (单引号), " (双引号), \ (反斜线) and 空字符会自动转为