dede3.1分页文字采集过滤规则详说(图文教程)续二_php技巧

稍微了解dede采集规则的朋友上篇内容完全可以略过，下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址：
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面，是因为以上的两个页面一个有分页，而另一个没有，并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的，个别地方会显得蛇足，只为说明的方便。

目标文字部分头部代码1：

'700')this.width='700';" border=0>
目标文字部分头部代码2：

'700')this.width='700';" border=0>

通过比较不难发现，两个文字部分的开始采集部分能确定下来为描黑部分，开头部分好说，代码如下：

复制代码代码如下:

              <TR>
                <TD height="8"></TD>
              </TR>
              <TR>
                <TD valign="top" class=Connet><p>

目标文尾及分页区域代码1：

'700')this.width='700';" border=0>

目标文尾及分页区域代码2：

'700')this.width='700';" border=0>

比较一下两个结尾，尽管想把第一个的结尾再往前提一点，但没法子，要考虑到全部链接的共同部分，就只好取描黑的部分了，这也给今后确定过滤规则添了点麻烦，这是后话。先把结尾部分确定了吧：

复制代码代码如下:

</p>
</TD>
</TR>

时间： 2024-10-23 23:38:39

dede3.1分页文字采集过滤规则详说(图文教程)续二_php技巧的相关文章

dede3.1分页文字采集过滤规则详说(图文教程)续四_php技巧

至此,分页内容匹配进行完毕. 文章内容匹配.分页内容匹配都进行完后,最后就只有"过滤"了,包括分页区域过滤和文章内容过滤.据本人的感觉,上面的两个规则都好写,只要找到全部链接中的"唯一性"代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙--哈哈,感觉就是这样.尤其如我一般的新手,对"正则"这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了. 好了,闲话了.也累了,听听<加州旅馆&g

dede3.1分页文字采集过滤规则详说(图文教程)_php技巧

本文旨在以一个有代表性的文字分页的取样规则和过滤规则为蓝本,通过简单的变通和改动,解决一般性文字分页的采集问题一.范例部分范例分页区域代码:范例分页区域代码:'700')this.width='700';" border=0>范例分页区域取样代码: 分页区域取样(匹配):'700')this.width='700';" border=0> 范例分页内容过滤规则:分页内容过滤规则:'700')this.width='700';" border=0> 范例采

WordPress中转义HTML与过滤链接的相关PHP函数使用解析_php技巧

esc_html()(转义 Html)esc_html() 函数用来转义 Html 代码,让 Html 代码不转义. 用法 esc_html( $text ); 参数 $text (字符串)(必须)要转义的字符串. 默认值:None 返回值 (字符串)返回转义后的字符. 例子 echo esc_html( '<a href="http://www.example.com/">A link</a>' ); 上边的代码将输出: WordPress 函数:esc_ht

举例详解PHP脚本的测试方法_php技巧

一.常用测试示例我们经常会遇到这种情况:将一些没有经过任何测试的遗留代码进行重新编写测试,甚至这些代码还是用面向对象写的.要对这样的代码进行测试,我的建议是把代码分解成块,这样就容易测试了. 然而,这些遗留代码并不是那么好重构的,比如:测试前,你不能在把代码重新编写,这是为了避免影响原有程序,当然也不好进行单元测试. 在PHP程序中,通常有一部分代码是写在几个index.php和script.php文件中的,这些.php文件存放在几个不同的文件夹里.如果不找到它们的入口点,是无法直接由Web服

PHP字符过滤函数去除字符串最后一个逗号(rtrim)_php技巧

首先分别解释下, trim过滤字符串两端,rtrim过滤字符串尾部,=chop()ltrim过滤字符串首部. 过滤字符串中键的咚咚就只能用str_replace咯.举个例子说明下, PHP代码复制代码代码如下: $str = '123,333,234,'; echo rtrim($str, ','); rtrim实例代码2 复制代码代码如下: <?php$text = "\t\tThese are a few words :) ... ";$trimmed = rtrim

浅析php过滤html字符串,防止SQL注入的方法_php技巧

批量过滤post,get敏感数据复制代码代码如下: $_GET = stripslashes_array($_GET);$_POST = stripslashes_array($_POST); 数据过滤函数复制代码代码如下: function stripslashes_array(&$array) { while(list($key,$var) = each($array)) { if ($key != 'argc' && $key != 'argv' &&

php实现过滤字符串中的中文和数字实例_php技巧

本文实例讲述了php实现过滤字符串中的中文和数字.分享给大家供大家参考.具体实现方法如下: function getChinese($string,$encode="GBK") { switch($encode){ case "GBK" :$codelength=2;break; case "GB2312" :$codelength=3;break; case "UTF-8" :$codelength=3;break; cas

示例详解Laravel的注册重构_php技巧

1. 首先确定用户注册的路由我们在安装好laravel的时候默认生成的注册是用邮箱进行注册的,并且有些选项不需要,有些还需要加一些表单选项我们注册的话,并不是可以随便注册的,只有一些超级管理员才能进行注册首先我们使用上次创建的UserController进行配置,如果没有的话,可以使用php artisan make:controller UserController创建一个控制器类然后创建两条路由Route::get('register', 'UserController@getReg

详解php的socket通信_php技巧

对 TCP/IP . UDP . Socket 编程这些词你不会很陌生吧?随着网络技术的发展,这些词充斥着我们的耳朵. 那什么是TCP/IP.UDP? TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,是一个工业标准的协议集,它是为广域网(WANs)设计的. UDP(User Data Protocol,用户数据报协议)是与TCP相对应的协议.它是属于TCP/IP协议族中的一种. 这里有一张图,表明了这些协议

猜你喜欢

arm-eabi-gcc:error trying to&amp; ex…

编android源码的时候总是会报下面的错误--最后发现是交叉编译工具的权限问题,chmod -R 777 * 就可以了 arm-eabi-gcc: error trying to exec 'cc1 ...

JSP中的全文检索

js|全文检索全文检索一直都是web方面的关键技术,如何在浩如烟海的信息中找到自己想要的信息是人们最关心的.鼎鼎大名的GOOGLE就是一个很成功的例子,网络上的人们大部分都用GOOGLE来查找自己需 ...

如何用php作线形图的函数

很高兴大家对PHP如此的情有独钟! 下面就给大家介绍php作线形图的函数: /* 函数说明 $data:y轴数据(数组) $graphdata:y轴数据--百分比(数组) $label:x轴数据(数组 ...

实时走动的时钟的制作

时钟原创教程,转载请注明出处:网页教学网效果如下: 制作步骤: 1.首先新建一个MC元件,然后编辑该元件,方法是设置两个动态文本框,给两个文本框分别设置实例名为:time和date.两个文本框用到 ...

IOS中UIPickerView的属性及委托方法

属性 numberOfComponents (readonly) 选择框的行数 dataSource (readonly) 数据源 delegate 委托 (BOOL)showsSelectionIn ...

AutoCAD基本图形设置

当使用AutoCAD创建一个图形文件时,通常需要先进行图形的一些基本的设置,诸如绘图单位.角度.区域等.AutoCAD 2002为用户提供了三种设置方式: (1) 使用样板(Template) (2) ...

配线架集中上线方式的好处

配线架集中上线方式是指将配线架横排设备号与竖排主干电缆线序号预先按一定比例一次性完成跳线,通过程控交换机设备号与电话号灵活软连,完成装机.移机.改号.测试等项业务操作.这种新的操作方式只需一人通过微机 ...

Windows 7系统命令，助你完成非常任务

善用命令无疑会提升系统管理的效率.此外,利用命令中的隐藏参数,可实现某些在图形界面下不能或者不容易实现的任务.在Windows 7中集成了数量可观的命令工具,这些工具是我们进行系统管理的有力武器.下面 ...

J2ME实践：减少图片以减小JAR文件大小

许多手机会因为JAR文件太大而无法运行MIDP应用程序,而减小JAR文件尺寸的有效方法之一是减少不必要的图片,例如,启动时的LOGO图片可以用文字来代替,列表项可以只显示文字而不显示图片.为了能适应不 ...

win7系统怎么升级win8系统

win7系统怎么升级win8系统 1.首先我们要去微软的官方网站(点击进入)去下一个小工具"Win8升级助手",点击页面上的"马上开始"就开始下载了.下载完 ...

python实现的系统实用log类实例

本文实例讲述了python实现的系统实用log类.分享给大家供大家参考.具体如下: 每个系统都必不可少会需要一个log类,方便了解系统的运行状况和排错,python本身已经提供了一个logger了 ...

室内环境人像PS调色教程

午后的阳光洒进房间,暖暖的带着些许慵懒,半躺在洒满阳光的地板上冥想,这幅场景真是惬意自然.很多摄影师喜欢拍摄这样的室内环境人像作品,女性柔美的气质和散漫温暖的光线结合成非常完美的画面,今天小编带来的就 ...

微信公众平台开发入门教程

在这篇微信公众平台开发教程中,我们假定你已经有了PHP语言程序.MySQL数据库.计算机网络通讯.及HTTP/XML/CSS/JS等基础. 我们将使用微信公众账号方倍工作室作为讲解的例子,二维码见底部 ...

win8卸载程序在哪里

win8卸载程序在哪里下面小编一步步图解操作给大家: 鼠标操作方法: 右键单击要卸载的程序,在底部就出现一个应用栏,选择卸载. 手势操作: 如果要卸载的程序磁贴在上方,手指可以 ...

巧用DISM,轻松删除win8.1WinSxS冗余更新

巧用DISM,轻松删除win8.1WinSxS冗余更新的步骤: 1.例如在Win8.1 Update平台下,登陆传统桌面,右击开始按钮,选择命令提示符(管理员); 2.在打开的命令提示符中输入安全 ...

Win7系统删除tencent qqmail plugin程序的方法

tencent qqmail plugin是什么程序? tencent qqmail plugin 是腾讯QQ的邮箱插件,这是我们在安装QQ聊天软件的时候附带安装上去的,它的主要作用是能让QQ读取 ...

新浪微博什么是相关用户？

微博搜索某用户后右侧会出现该用户的3个相关用户,相关用户指的是:来源于搜索结果内容中提到和被共同搜索次数最多的用户. 点击"分享"按钮还可以将此结果分享到微博和更多网友共享搜索 ...

双管齐下，MaxCompute数据上云与生态

玩大数据的第一件事情是将数据上传到MaxCompute,那么数据是通过哪些途径进入MaxCompute中的呢? 如上图所示,MaxCompute/StreamCompute是提供给用户用来计算大数 ...

大神呐，救命啊！纠结死我了kindeditor套用模板页后不显示可是在不套用模板的时候却正常显示

问题描述大神呐,救命啊!纠结死我了kindeditor套用模板页后不显示可是在不套用模板的时候却正常显示是我描述的不够详细么? 解决方案你模板套用对了吗?是不是js的冲突,比如你前面已经引用js ...

请教如何在一个读取到的视频上加另一张图片

问题描述最近在做一个project,要求在读取出来的视频上做处理.我现在已经用了JMF做了简单的视频播放器,可以从本地或者从网络上播放mpg的视频.现在想在这个视频上做一些处理,其中一个是要求在这个 ...

const char*

关于const char*的例子 #include<stdio.h> int main() { const char *p = "123"; p[1] = '3'; / ...

redis 安装和配置

首先编译 tar -zxvf redis-3.0.3.tar.gz cd redis-3.0.3 make cd src make install make完成后,有产生可执行文件(绿色的) ...

vpn nat- vpn穿越nat的问题，相当的困惑，请高手指点

问题描述 vpn穿越nat的问题,相当的困惑,请高手指点我是做3G无线路由开发的,路由的实现原理是NAPT, vpn有三种实现方式:pptp,l2tp,ipsec,网上都有说明怎么实现vpn穿越NA ...

微信支付开发(8) 刷卡支付

关键字:微信支付微信支付v3 刷卡支付统一支付 prepay_id 作者:方倍工作室原文: http://www.cnblogs.com/txw1958/p/wxpayv3-micropay.ht ...

程序员的量化交易之路（29）--Cointrader之Tick实体（16）

转载需注明出处:http://blog.csdn.net/minimicall,http://cloudtrade.top Tick:什么是Tick,在交易平台中非常常见,其实就单笔交易时某只证券的 ...

【深圳卓炎科技公司】为什么别人家的网站在赚钱，而你的网站却？

经过走访一些小微企业主和自由职业者对网络营销的看法,很大一部分认为[网站建设](http://www.zy810.com/)好形同虚设,完全没有效果.花钱买网站流量,做的确实只亏不赚的买卖.其实做好网 ...

怎么用C#的webBrowser模拟点击天猫页面上的标签

问题描述怎么用C#的webBrowser模拟点击选中天猫页面上的类型标签?请高手指教如图,配有页面元素截图:我用的是C#,试过如下的方法,试过模拟点击标签"<li>" ...

丁涛并没有说明离职的原因和去向

华旗企划部崔志杰向记者证实了这一消息,并称对丁涛离职的具体日期并不清楚,而数码产品事业部总经理的职位由有海归背景的MP3产品经理海日接任. 11月25日记者通过电话联系到了丁涛,丁涛表示离职纯属个人原 ...

中国手机地图导航APP市场累计账户数已达13.3亿户

根据EnfoDesk易观智库产业数据库最近发布的<2014年第1季度中国手机地图导航APP市场季度监测报告>数据显示:截至2014年第1季度,中国手机地图导航APP市场累计账户数已达13. ...

server-ClientAbortException: java.io.IOException异常

问题描述 ClientAbortException: java.io.IOException异常项目在部署后,一直出现这个异常. 原因是手机浏览器在访问时 server返回的是response.ge ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.022 s.