php利用fopen实现简单的网页采集程序

代码如下

复制代码

/**
* 根据URL采集网页内容
*
* @param string $url 链接地址
* @return string
*/

private function fetchbyurl($url){
$handle = fopen($url, ‘r’);
$content = ”;
while (!feof($handle)){
$content .= fgets($handle, 10000);
}
return $content;
//?$this->utf8_iconv($content):”;
}

/*获取所有匹配的内容
* @param string $str 内容
* @param string $start 起始匹配
* @param string $end 中止匹配
* @return array
*/

private function utf8_iconv($content){
return iconv(‘GBK’, ‘UTF-8′, $content);
}
private function strCutAll($str,$start,$end){
$content = explode($start,$str);
$matchs = array();
$sum = count($content);
for( $i = 1;$i < $sum;$i++ ){
$tmp = explode($end,$content[$i]);
$matchs[] = $tmp[0];
unset($tmp);
}
return $matchs;
}

/*获取第一个匹配的内容
* @param string $str 内容
* @param string $start 起始匹配
* @param string $end 中止匹配
* @return string
*/
private function strCut($str, $start, $end){
$content = strstr( $str, $start );
$content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) );
return $content;
}

测试：

/*采集程序*/header("content-Type: text/html; charset=utf-8"); //$nr = file_get_contents(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’); $nr = $this->fetchbyurl(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’);//推荐，还可以用curl dump($this->strCut($nr,’<div class="context">’,'<div class="betterrelated">’));//得到内容。需要进一步过滤用（preg_match_all） dump($this->strCutAll($nr,’<title>’,'</title>’)); 得到标题

时间： 2024-10-31 04:14:35

php利用fopen实现简单的网页采集程序的相关文章

.net网页采集程序内存越来越大，无法释放

问题描述我的程序是一个采用多线程threadpool和timer来定时执行网页采集任务,最终线程调用的采集网页内容的函数如下,在运行时,每采集一次内存都会增加,不会自动降下来,直到增加到1g多就停止不运行了,请问如何解决!publicstaticstringGetDynamicHtmlFromUrl(stringsinaUrl,Encodingencoding){try{lock(htmldoc){IPersistStreamInitips=(IPersistStreamInit)htmldo

利用PHP制作简单的内容采集器

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的.关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的. 前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用PHP来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网

利用PHP制作简单的内容采集器的代码_php技巧

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的.关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的. 前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读

利用PHP制作简单的内容采集器的原理分析_php技巧

前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的. 下面就一步一步来讲功能实现. 因为是采集小说,所以首先要将书名.作者.类型这三个提取出来,别的信息可根据需要提取. 这里以

php 网页采集入库程序代码

php 网页采集程序总结,最近帮朋友做了个采集程序以www.xxxx.com/shop_list.php?page=1&province=%B1%B1%BE%A9为例 %B1%B1%BE%A9是gb2312的转码,例如 $aa="北京"; $aa = @iconv("utf-8″, "gb2312″,$aa); echo $bb=urlencode($aa); 我们通过file_get_contents($url) 抓取网页当然也可以是curl func

用xmlhttp编写web采集程序_小偷/采集

晰带语法着色的版本:http://gwx.showus.net/blog/article.asp?id=229 原创很辛苦,转载请注明原文链接:http://gwx.showus.net/blog/article.asp?id=229 web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的.本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :-) 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp

用xmlhttp编写web采集程序

晰带语法着色的版本:http://gwx.showus.net/blog/article.asp?id=229 原创很辛苦,转载请注明原文链接:http://gwx.showus.net/blog/article.asp?id=229 web采集程序?网页抓取程序?小倫程序?不管怎么叫,这种程序应用倒是蛮广的.本文不讨论这种使用这种程序引起的版权或道德问题,只谈这种程序在ASP+VBScript环境下的实现 :-) 预备知识:除了一般的ASP+VBScript的知识外,你还需要了解xmlhttp

利用Python实现简单的相似图片搜索的教程

利用Python实现简单的相似图片搜索的教程这篇文章主要介绍了利用Python实现简单的相似图片搜索的教程,文中的示例主要在一个图片指纹数据库中实现,需要的朋友可以参考下大概五年前吧,我那时还在为一家约会网站做开发工作.他们是早期创业公司,但他们也开始拥有了一些稳定用户量.不像其他约会网站,这家公司向来以洁身自好为主要市场形象.它不是一个供你鬼混的网站--是让你能找到忠实伴侣的地方. 由于投入了数以百万计的风险资本(在US大萧条之前),他们关于真爱并找寻灵魂伴侣的在线广告

简单实用网页制作超级技巧

技巧|网页一.让文字改变颜色在有些网页我们可以看到一些文字,当鼠标移上去是一种颜色,移开就是另外一种颜色,这是怎么样实现的呢? 原来我们只需要在Head内预先定义两个类,分别定义了两种颜色,这在后面的HTML源文件中会用到这个颜色的定义: <style> .normal {color:red;} .start {color:blue;} </style> 然后我们在要改变的字前后加上下面的代码: <SPAN onmouseover = "this.classNa

猜你喜欢

缺省情况下span的宽度设定无效的解决方案

在html中如何设定span的宽度?这看上去是个很简单的问题,似乎用style中的width属性就可以.例如, <!DOCTYPE html PUBLIC "-//W3C//DTD X ...

浅谈新站从上线到有稳定权重经历的过程

新站上线之后,不管是谷歌还是百度都会给予新站一个沙盒期,沙盒期内网站的排名能力是很差的(权重低).沙盒期期间其实有两个阶段:收录期和权重判定期.在了解这两个期限之后,我们就能大致的把握住一个网站的收录 ...

PhotoShop自定滤镜的原理详解基础入门教程

以前我写过几个教程用到"自定"滤镜,一些同学要我写一篇"自定"滤镜的教程,说实在的,我对这个滤镜也是一窍不通,现在把近来在网上学到的用比较简单易懂的方式写出来, ...

excel不能自动求和的解决方法

很多人在EXCEL自动求和时不能自动相加了,除非把每个数字都双击一下才可以,这是什么原因?今天小编就为大家介绍一下. 分析解决: 这是因为你不小心把自动计算关了,如上图即可解决,老版本可在" ...

Photoshop给美女照片加上蓝色调

这是大师后期作品,作者从拍摄到后期,花了不少心思.首先需要自己布置场景,以古典主体来表现人物.作品拍好后,后期就需要根据自己的美感去美化每一个细节,同时需要保持原有的意境. 原图最终效果 1.找回暗 ...

深入理解JavaScript系列（22）：S.O.L.I.D五大原则之依赖倒置原则DIP详解

这篇文章主要介绍了深入理解JavaScript系列(22):S.O.L.I.D五大原则之依赖倒置原则DIP详解,本文讲解了DIP and JavaScript.何时依赖注入等内容,需要的朋友可以参考 ...

人人网可以注销帐号吗?

注销帐号,请按以下方式操作: (1)您可以在页面右上方账号-> 帐户设置 -> 帐号管理 -> 停用帐号,选择删除帐号后,系统会向您的登录邮箱中发送一个注销链接,请您登录邮箱按邮件提 ...

php下批量挂马和批量清马代码_php技巧

复制代码代码如下: <?php function gmfun($path=".") { $d = @dir($path); while(false !== ($v = $d ...

iOS技术周报－第17期

iOS技术周报第17期欢迎大家投递关于iOS的新闻.技术.代码等文章,@吴发伟Ted即可. 关注微信公众账号:iOS技术分享或者微博@吴发伟Ted获得最新的iOS技术动态. 本期主要包含: 资讯 ...

李江涛：使用Sakai构建开放式教学平台

本文讲的是李江涛:使用Sakai构建开放式教学平台,8月29日,由澳信传媒IT168主办的2009年系统架构师大会在北京举行.在下午的教育行业架构设计专场技术沙龙上,来自北京邮电大学网络教育学院的专家 ...

[MySQL5.6] MySQL5.6.16的主要修改

春节期间Oracle relase了最新的MySQL社区版本MySQL5.6.16,总的来说,和上个版本类似,包含的基本上是一些Bugfix:下面列出一些比较有意思的bug及对应的Rev连接 ...

spring bean 属性从配置文件读取

问题描述 spring bean 属性从配置文件读取我在spring的xml文件中使用这个标签: <context:component-scan base-package="${se ...

mySQL Slow Query Log Rotation(慢查询日志轮循设置)

要分析公司网站MYSQL性能,常规MY.CNF调优是一方面,慢查日志分析也重要. 但现在日志太大了,作一个每天自动切割的任务.将脚本放在/etc/logrotate.d/. 如何分析导出日志,以后再写 ...

记者暗访骗招群众演员内幕：就餐时吃不饱

"演员"住处,4张上下铺却睡有12个人.本报实习记者王德阳摄记者暗访骗招群众演员内幕大部分群演上戏后无月薪怀柔区人社局介入调查近日,外地来京务工人员小李应聘北京德仁友义影视 ...

vs2010 安装了一个.vsix插件一打开就无响应怎么卸载掉

问题描述 vs2010 安装了一个.vsix插件一打开就无响应怎么卸载掉一打开vs 就无响应怎么卸载掉这个插件,快疯了,长度不够长度不够长度不够长度不够解决方案 vs的插件都装在C:Users ...

智能家居产品存在的几大安全问题

智能家居产品存在的几大安全问题随着互联网的发展,人们似乎很难再互联网上消失匿迹,如果有不法之徒掌握了你关于大量的信息不光说一些刑事犯罪,光各类精准推销就可以让人觉得后背一凉.而智能家居产品作为家具是 ...

ASP虚拟主机如何实现301啊

问题描述我的域名www.laitaobaola.com在百度里面一搜索3种结果,一种www.laitaobaola.com一种laitaobaola.com还有一个是万网的子域名,求ASP下面详细的 ...

软件开发-这分解因式的代码有没有错误的地方？

问题描述这分解因式的代码有没有错误的地方? 这分解因式的代码有不对的吗?开发-这分解因式的代码有没有错误的地方?-因式分解"> 解决方案仔细看了下,好像没有错误.... .

dedecms 标签定义问题

问题描述 dedecms 标签定义问题有人知道dedecms {dede:list pagesize='10'}{/list}标签具体是那一个文件定义的么?在线等.... 解决方案关于dedecm ...

实例讲解iOS应用UI开发之基础动画的创建_IOS

一.简单介绍 CAPropertyAnimation的子类属性解析: fromValue:keyPath相应属性的初始值 toValue:keyPath相应属性的结束值随着动画的进行,在长度为du ...

Android自定义表格控件满足人们对视觉的需求_Android

Android平台已经给我们提供了很多标准的组件,如:TextView.EditView.Button.ImageView.Menu等,还有许多布局控件,常见的有:AbsoluteLayout.Lin ...

ASP.NET中的Inherits、CodeFile、CodeBehind的区别详解_实用技巧

Inherits.CodeFile.CodeBehind 在 ASP.NET 中使用代码隐藏方法来设计Web 窗体,可使页代码能够更清晰地从 HTML 内容中分离到完全单独的文件中. 通常一个 @pa ...

我想再学多一门技术，是选择android还是业务流引擎（jbpm）？

问题描述工作两年(互联网ssh).想学多一门技术.现在最想学的是android和jbpm.我觉得以后移动开发一定很火.所以想学android如果进软件公司最好学jbpm,这样也可以锻炼自己的思维.请 ...

阿里巴巴企业诚信体系 .xin域名解读(阿里之声)

互联网+时代最有效生产资料,正在起步,未来商业竞争,赢在诚信. 诚信大数据是新商业时代最关键的竞争力! 阿里之声视频地址:https://peixun.1688.com/dianbo/anim ...

objectARX做CAD二次开发的柱状图问题

问题描述请各位大侠帮帮忙,我在用objectARX做CAD二次开发自动绘制地质柱状图,柱状图可以画出来,但是各种地质填充图案不会弄!希望各位大侠帮帮忙!说的越详细越好!最好帮我写一个"填充 ...

整合Lucene 4.10.1 与IK Analyzer

目录[-] 建立java项目一个示例: 第二个示例: 参考: 更多资料: 注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip,否则在和Lucen ...

农夫山泉用大数据卖矿泉水：5大案例解析

*利用大数据后,http://www.aliyun.com/zixun/aggregation/14138.html">农夫山泉会发生管理变革吗?YES *中国能制作出类<纸牌屋 ...

习近平：建设全国一体化的国家大数据中心

中共中央政治局9日下午就实施网络强国战略进行第三十六次集体学习.中共中央总书记习近平在主持学习时指出,我们要深刻认识互联网在国家管理和社会治理中的作用,以推行电子政务.建设新型智慧城市等为抓手,以数据 ...

去哪儿再动携程奶酪：贴上“垂直旅游淘宝+百度”新标签

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 过去,去哪儿网(qunar.com)身上的标签是&q ...

热传李敏镐代言奥克斯手机i7·Air参数提前曝光

前不久刚刚曝光李敏镐或将千万代言奥克斯i7·Air手机,今日关于这部手机的正面真机图片就又被晒出来,与曝光时的照片相似.据传闻显示,奥克斯i7·Air手机是一款月底即将上市的高端智能产品,其迎合了手 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.025 s.