dede3.1分页文字采集过滤规则详说(图文教程)续二_php技巧

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

'700')this.width='700';" border=0>
目标文字部分头部代码2:

'700')this.width='700';" border=0>

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

复制代码 代码如下:

              <TR>
                <TD height="8"></TD>
              </TR>
              <TR>
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1:

'700')this.width='700';" border=0>

目标文尾及分页区域代码2:

'700')this.width='700';" border=0>

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

复制代码 代码如下:

</p>
                  </TD>
              </TR>

时间: 2024-10-23 23:38:39

dede3.1分页文字采集过滤规则详说(图文教程)续二_php技巧的相关文章

dede3.1分页文字采集过滤规则详说(图文教程)续四_php技巧

至此,分页内容匹配进行完毕.  文章内容匹配.分页内容匹配都进行完后,最后就只有"过滤"了,包括分页区域过滤和文章内容过滤.据本人的感觉,上面的两个规则都好写,只要找到全部链接中的"唯一性"代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙--哈哈,感觉就是这样.尤其如我一般的新手,对"正则"这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了.  好了,闲话了.也累了,听听<加州旅馆&g

dede3.1分页文字采集过滤规则详说(图文教程)_php技巧

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题 一.范例部分范例分页区域代码:范例分页区域代码:'700')this.width='700';" border=0>范例分页区域取样代码:  分页区域取样(匹配):'700')this.width='700';" border=0> 范例分页内容过滤规则:分页内容过滤规则:'700')this.width='700';" border=0> 范例采

WordPress中转义HTML与过滤链接的相关PHP函数使用解析_php技巧

esc_html()(转义 Html)esc_html() 函数用来转义 Html 代码,让 Html 代码不转义. 用法 esc_html( $text ); 参数 $text (字符串)(必须)要转义的字符串. 默认值:None 返回值 (字符串)返回转义后的字符. 例子 echo esc_html( '<a href="http://www.example.com/">A link</a>' ); 上边的代码将输出: WordPress 函数:esc_ht

举例详解PHP脚本的测试方法_php技巧

一.常用测试示例 我们经常会遇到这种情况:将一些没有经过任何测试的遗留代码进行重新编写测试,甚至这些代码还是用面向对象写的.要对这样的代码进行测试,我的建议是把代码分解成块,这样就容易测试了. 然而,这些遗留代码并不是那么好重构的,比如:测试前,你不能在把代码重新编写,这是为了避免影响原有程序,当然也不好进行单元测试. 在PHP程序中,通常有一部分代码是写在几个index.php和script.php文件中的,这些.php文件存放在几个不同的文件夹里.如果不找到它们的入口点,是无法直接由Web服

PHP字符过滤函数去除字符串最后一个逗号(rtrim)_php技巧

首先分别解释下, trim过滤字符串两端,rtrim过滤字符串尾部,=chop()ltrim过滤字符串首部. 过滤字符串中键的咚咚就只能用str_replace咯.举个例子说明下, PHP代码 复制代码 代码如下: $str = '123,333,234,'; echo rtrim($str, ','); rtrim实例代码2 复制代码 代码如下: <?php$text = "\t\tThese are a few words :) ...  ";$trimmed = rtrim

浅析php过滤html字符串,防止SQL注入的方法_php技巧

批量过滤post,get敏感数据 复制代码 代码如下: $_GET = stripslashes_array($_GET);$_POST = stripslashes_array($_POST); 数据过滤函数 复制代码 代码如下: function stripslashes_array(&$array) { while(list($key,$var) = each($array)) {  if ($key != 'argc' && $key != 'argv' &&

php实现过滤字符串中的中文和数字实例_php技巧

本文实例讲述了php实现过滤字符串中的中文和数字.分享给大家供大家参考.具体实现方法如下: function getChinese($string,$encode="GBK") { switch($encode){ case "GBK" :$codelength=2;break; case "GB2312" :$codelength=3;break; case "UTF-8" :$codelength=3;break; cas

示例详解Laravel的注册重构_php技巧

1. 首先确定用户注册的路由 我们在安装好laravel的时候默认生成的注册是用邮箱进行注册的,并且有些选项不需要,有些还需要加一些表单选项 我们注册的话,并不是可以随便注册的,只有一些超级管理员才能进行注册 首先我们使用上次创建的UserController进行配置,如果没有的话,可以使用php artisan make:controller UserController创建一个控制器类 然后创建两条路由Route::get('register', 'UserController@getReg

详解php的socket通信_php技巧

 对 TCP/IP . UDP . Socket 编程这些词你不会很陌生吧?随着网络技术的发展,这些词充斥着我们的耳朵. 那什么是TCP/IP.UDP? TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,是一个工业标准的协议集,它是为广域网(WANs)设计的. UDP(User Data Protocol,用户数据报协议)是与TCP相对应的协议.它是属于TCP/IP协议族中的一种. 这里有一张图,表明了这些协议