关于Simple_html_dom的小应用

　　今天一同学给我推荐了本书，说是刚出不久，内容还不错，是心灵鸡汤类的书，于是按捺不住就像在网上下一本，可是木有资源肿么办。只有在线看的，作为一个准码农，所以甭废话了，咱得用代码解决问题对吧……

　　1.工欲善其事必先利其器

　　首先你得有个工具用吧，别想我之前似得抓个网页，就写了好多的$pattern去挨个匹配标签，作为伪程序员那哪行啊，对吧，咱得学着它Simple_html_dom

专门解析HTML文档的一东西，超好用的哦~。Simple_html_dom是什么东西在咱博客园上就有怎么用的博客，在这不做赘述。

　　2.代码详解

　　啥也甭说，还是代码说话给力，以下是抓去新浪的小说为例。

　　（1）首先得引入文件吧

　　　　include"simple_html_dom.php";

　　（2）咱这抓小说比较简单，深度就一层，不涉及到什么图的深搜广搜，你只要观察URL的规律即可

　　　　$url="http://vip.book.sina.com.cn/chapter/220331/2143";//用for循环加东西就是了

　　（3）如果for循环的次数太多会报错：超时提醒。甭担心这不是咱的错，这是配置文件的错，咱加上这句话就OK了

　　　　ini_set('max_execution_time', '100');

　　（4）实例化Simple_html_dom

　　　　$html=new simple_html_dom();

　　（5）然后就是for循环生成一个个的URL然后提取内容了主要用到下面的东西　　

　　　　//从URL加载
$html->load_file($url_temp);

　　　　//查找class为mainContent的div
$title=$html->find("div[class=mainContent] h1",0);

　　　　//收集正文
$content=$html->find("div[class=mainContent] div[class=contTxt1]",0);

　　（6）适当的用正则控制以下格式

　　　　//换行
$content=preg_replace($pattern,"\r\n",$content);
//加空格
$content=preg_replace($pattern1," ",$content);

　　（7）当然少不了他了（去除html标签）

　　　　$title=strip_tags($title);
$content=strip_tags($content);

　　（8）写入文件即可

　　（9）恭喜你，小说抓取成功。

3.主要用到的技术

　　　（1）对php的熟练应用

　　　（2）掌握正则表达式。

　　　（3）主要是Simple_html_dom.php的使用

　　　（4）还得注意php超时问题

　　当循环太多时会出现超时问题，建议不要修改配置文件

时间： 2024-09-16 07:35:27

关于Simple_html_dom的小应用的相关文章

PHP simple_html_dom.php+正则采集文章代码_php技巧

复制代码代码如下: <?php //包含PHP Simple html Dom 类库文件 include_once('./simplehtmldom/simple_html_dom.php'); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER,

php使用simple_html_dom解析HTML示例_php技巧

本文实例讲述了php使用simple_html_dom解析HTML的方法.分享给大家供大家参考,具体如下: 今天写了两个爬虫, 一个使用Python, 一个使用PHP, 说实在, 两个实现的方式都很方便. 下面说一下使用simple_html_dom这个开源类来解析HTML代码: 1. 下载simple_html_dom: http://sourceforge.net/projects/simplehtmldom/files/ 或者点击此处本站下载. 2. 用法示例: <?php // exam

MathType符号太小怎么办

1.打开MathType编辑器后,在工作区域中输入平等四边形符号和字母ABCD.输入后你会发现前面的平等四边形的符号有点太小了,与后面的文字看起来很不协调. 平等四边形的输入方法具体步骤请参考教程:MathType怎么输入平等四边形符号. 在工作区域中输入平等四边形符号及字母ABCD 2.在编辑出来的公式中,选中平行四边形符号,在MathType菜单中选择"大小"菜单,在出现的下拉菜单中点击"符号",这个时候你就会发现原来的平等四边形符号比原来变大了. 选中平等

MathType工作区光标怎么变小了

MathType工作区光标变小示例: MathType工作区光标变小示例解决方法如下: 1.打开MathType编辑器后,选择"视图"--"缩放",将比例选择为200%或者更大. 在MathType视图菜单中将缩放比例设置为200%或者更大 2.设置完成后可以看到MathType工作区中光标变大了,但是Word中的显示不变. 更多精彩知识请关注三联工具软件教程栏目

MathType小符号栏消失了怎么恢复

MathTye小符号栏界面示例: MathTye小符号栏界面示例小符号栏消失后示例: MathTye小符号栏消失后界面示例具体操作方法如下: 1.打开MathType公式编辑器,不管是从Word中打开,还是双击MathType桌面图标打开都可以,对后面的操作没有影响. 2.在MathType编辑窗口中,将鼠标移到到MathType菜单栏中,点击"视图"--"小符号栏",在没点击之前你会发现小符号栏前面是没有勾的. 点击"视图"--&quo

快速增强路由器安全的十个小技巧

路由器操作系统同网络操作系统一样容易受到黑客的攻击.大多数中小企业没有雇佣路由器工程师,也没有把这项功能当成一件必须要做的事情外包出去.因此,网络管理员和经理人既不十分了解也没有时间去保证路由器的安全.下面是保证路由器安全的十个基本的技巧. 1.更新你的路由器操作系统:就像网络操作系统一样,路由器操作系统也需要更新,以便纠正编程错误.软件瑕疵和缓存溢出的问题.要经常向你的路由器厂商查询当前的更新和操作系统的版本. 2.修改默认的口令:据卡内基梅隆大学的计算机应急反应小组称,80%的安全事件都

PhotoShop调出外景MM朦胧小清新褪色胶片效果教程

首先声明一下,大家的显示器对颜色的表现可能互相之间有所差异.所以看的效果也不太相同. 发教程的目的是让大家去摸索更多的后期图片的方法而不是一味的用一键的软件. 效果图: 原图: 今天的原图是这张无后期的~ 当时拍eos movie的花絮~嘿嘿首先拉到PS里面顺便裁剪一下把周围的杂物裁掉点类似于八卦的小图标这次选择最下面那个选项 "可选颜色"

Photoshop制作非常萌的小黄鸭棒棒糖

Photoshop制作非常萌的小黄鸭棒棒糖.效果图非常可爱,作者把一些卡通元素融入到棒棒糖当中,非常有趣.大致过程:先把棒棒糖分解一下;然后由底层开始制作,用图层样式配合形状工具做出大致的糖果部分;最后把自己喜欢的卡通元素加入到糖果当中,再配上一些装饰元素即可. 最终效果 1.我们先拉一个渐变的背景,如下图. 2.新建一个淡黄色的圆形,作为帮帮糖的底层. 3.然后用图层模式的内阴影做一个效果,参数如下. 分类: PS入门教程

10个小技巧旅游网站设计分析

一.用户需要一目了然的重点进入酒店预订网站或是板块的用户一般来说目的性很强,他们心里其实已经有了很完整的设想,而来到网站只是为了完成计划.因此,让用户在首页就直观的看到他们需要的内容,并且尽可能的减少其他不重要内容的出现,这是一个提升用户体验的好方法. Agoda 正如Agoda的设计,网站首屏以令人浮想联翩的风景图作为背景,酒店预订的快捷入口最为抢眼,就连公司口号标语也只是简短的出现在页面上方.首页设计以热门内容为主,根据大多数用户的喜好和点击查询量列出推荐,这样的想法确实很好,但是底部