php实现递归抓取网页类实例

具体如下：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

<?php
class crawler{
private $_depth=5;
private $_urls=array();
function extract_links($url)
{
if(!$this->_started){
$this->_started=1;
$curr_depth=0;
}else{
$curr_depth++;
}
if($curr_depth<$this->_depth)
{
$data=file_get_contents($url);
if(preg_match_all('/((?:http|https)://(?:www.)*(?:[a-zA-Z0-9_-]{1,15}.+[a-zA-Z0-9_]{1,}){1,}(?:[a-zA-Z0-9_/.-?&:%,!;]*))/',$data,$urls12))
{
foreach($urls12[0] as $k=>$v){
$check=get_headers($v,1);
if(strstr($v,$url) && $check[0]=='HTTP/1.1 200 OK' && !array_search($v,$this->_urls) && $curr_depth<$this->_depth){
$this->_urls[]=$v;
$this->extract_links($v);
}
}
}
}
return $this->_urls;
}
}
?>

时间： 2024-10-26 05:27:34

php实现递归抓取网页类实例的相关文章

php实现递归抓取网页类实例_php技巧

本文实例讲述了php实现递归抓取网页类的方法.分享给大家供大家参考.具体如下: <?php class crawler{ private $_depth=5; private $_urls=array(); function extract_links($url) { if(!$this->_started){ $this->_started=1; $curr_depth=0; }else{ $curr_depth++; } if($curr_depth<$this->_de

Python urllib、urllib2、httplib抓取网页代码实例

这篇文章主要介绍了Python urllib.urllib2.httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下使用urllib2,太强大了试了下用代理登陆拉取cookie,跳转抓图片...... 文档:http://docs.python.org/library/urllib2.html 直接上demo代码了包括:直接拉取,使用Reuqest(post/get),使用代理,cookie,跳转处理 ? 1 2 3 4 5 6 7 8 9

网络爬虫-用Java来抓取网页实例中HttpClient类的问题

问题描述用Java来抓取网页实例中HttpClient类的问题报这么一大堆错误我也是受不了了...... 主要的问题应该是HttpClient类这个东西,在网上查了这个类是httpclient-2.x.jar包的产物,我导入的是httpclient-4.2.2.jar和httpcore-4.2.2.jar包,而这两个新的工具包并不包含HttpClient类,查阅了Java API帮助文档后,自己并没有找到HttpClient类的替代类,而是一堆接口和抽象类,由于是刚开始写这个,所以有点懵.

用Python程序抓取网页的HTML信息的一个小实例

这篇文章主要介绍了用Python程序抓取网页的HTML信息的一个小实例,用到的方法同时也是用Python编写爬虫的基础,需要的朋友可以参考下抓取网页数据的思路有好多种,一般有:直接代码请求http.模拟浏览器请求数据(通常需要登录验证).控制浏览器实现数据抓取等.这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来. 数据请求真的很喜欢符合人类思维的库,比如requests,如果是要直接拿网页文本,一句话搞定: ? 1 d

php curl抓取网页的介绍和推广及使用CURL抓取淘宝页面集成方法_php实例

php的curl可以用来实现抓取网页,分析网页数据用, 简洁易用, 这里介绍其函数等就不详细描述, 放上代码看看: 只保留了其中几个主要的函数. 实现模拟登陆, 其中可能涉及到session捕获, 然后前后页面涉及参数提供形式. libcurl主要功能就是用不同的协议连接和沟通不同的服务器~也就是相当封装了的sock PHP 支持libcurl(允许你用不同的协议连接和沟通不同的服务器)., libcurl当前支持http, https, ftp, gopher, telnet, dict,

Java正则表达式（一）、抓取网页email地址实例

实现思路: 1.使用java.net.URL对象,绑定网络上某一个网页的地址 2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象 3.通过HttpConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream 4.循环读取流中的每一行数据,并由Pattern对象编译的正则表达式区配每一行字符,取得email地址 package regex; import java.io.Buffere

php结合正则批量抓取网页中邮箱地址

php如何抓取网页中邮箱地址,下面我就给大家分享一个用php抓取网页中电子邮箱的实例. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 <?php $url='http://www.3lian.net'; //要采集的网址 $content=file_get_contents($url); //echo $content; function getEmail($str) { //$pattern = "/([a-z0-9]*[-_.]?[a-z0-9]+)*@([a-z

采集-Java HTTP Client 抓取网页，这个网页无论用什么编码都是乱码？

问题描述 Java HTTP Client 抓取网页,这个网页无论用什么编码都是乱码? http://www.licai.com/xuetang/CiDian.aspx?dj=1&type=&page=1 client.executeMethod(get); // String statusText = get.getStatusText(); //System.out.println("Test.main():--->" + statusText); Syste

技术-用jsoup抓取网页获取网页源码的时候，得到的源码和在网站上面点击右键查看源码不相同，怎么解决

问题描述用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 Document doc = Jsoup.parse(new URL(url), 5000); 解决方案一部分html是ajax异步加载的,你得用fiddler调试,得到这些请求,照着写解决方案二: C++ 抓取网页的源码获取网页的源码获取网页源码工具类

猜你喜欢

win7系统手动设置IP地址的操作方法

对于局域网用户来说,当我们在局域网创建网络共享或联网时,通常会需要手动设置IP地址,才能够保证win7系统与局域网正常的连接,不过对于一些系统新手来说,设置win7 IP 地址并非一件简单的事情, ...

针对浏览器隐藏CSS之九大技巧

css|技巧|浏览器我们都知道浏览器之间是有差异的,很多人在使用XHTML+CSS方式制作网页的时候都曾为此无比头痛.要在这些差异的影响下工作需要很多的技巧,"隐藏CSS"就是其 ...

PS打造暗调高清的海景照片

下面的教程介绍用通道及计算的方法来处理.这种方法比较实用,操作起来也比较简单.有兴趣的可以尝试一下. 图片清晰处理的方法有很多.可以视图片的实际情况选择不同的方法.下面的教程介绍用通道及计算的方法来处 ...

解析关键词排名稳居百度前三的秘诀

针对百度进行seo优化是一个漫长的过程,获得首页的排名又着实不易,一旦关键词排名进入首页又得小心翼翼的维护,生怕一个不小心排名就一落千丈,于是每天像个辛勤的蜜蜂一样辛苦的更新着网站内容,辛苦的发着网站 ...

分享利用seo从邀客联盟赚钱的经验

我是从a5论坛的邀客联盟争霸赛了解到邀客联盟的,当时候看他的推广佣金比例达到20%的提成,然后达到各个等级还能获得额外的大奖,当时候hold不住了,就到邀客联盟注册了一个账号. 注册邀客联盟之后,就想 ...

Enterprise Library Step By Step系列（二）配置应用程序块

一．响应配置变更通知: Configuration Application Block提供了一个事件机制,当存储的配置变更时通知应用程序 ,使用步骤: 1)创建一个EverntHandler 1/** ...

PhotoShop使用素材叠加为照片换背景

素材效果方法: 1.打开眼镜素材,复制一层; photoshop教程 2.把背景素材拖进来(水印部分自己处理一下),自由变换使其符合透视,放到两个图层中间作检验层 3.对最上面眼镜图层添加图层样式 ...

电脑玩游戏显卡温度过高怎么办

最近有用户反映,在玩游戏的时候提示显卡温度过高,导致电脑自动关机,这是什么情况呢?其实电脑显卡温度在90°以上时我们就需要注意了,因为温度到了这个范围就有可能引起电脑死机.自动关机等问题,那么该如 ...

win8系统无法更新必应天气的如何解决

win8系统无法更新必应天气的如何解决?win8系统自带必应天气应用,可以随时观察到当地的天气,是款非常实用的功能.有时候必应天气会提醒更新,但是用户点击更新时却没有反应,怎么回事呢?如果遇到wi ...

win8超级管理员权限开启和关闭

一.如何获得win8超级管理员权限我们这里只需要对注册表进行修改就能开启win8超级管理员的权限,有大部分网友对注册表这方面更是不熟悉,不建议大家去注册表内部进行修改.所以我们可以新建一个注册表 ...

qq浏览器怎么开启高速渲染组件

一.安装与启用选择菜单-QQ浏览器设置-扩展工具,右上方的菜单.设置.应用管理里面第一个插件,就是高速渲染组件安装完成后会自动启用二.停用与卸载对于安装后不想使用该组件的用户,可以选择停 ...

鲁大师wifi连不上怎么办？

鲁大师wifi连不上怎么办?小编带来了鲁大师wifi连不上解决方法,为什么会出现连接不了的情况呢?如果你想知道的话,就请试一试下文的解决方法吧. 法一.如果本地连接能够访问internet,点击& ...

怎样快速高效的找回误删的文件

1.单击电脑左下角的"开始 2.在开始的菜单中点选"运行" 3.然后在打开(O)的右侧方框中输入regedit 4.打开注册表后依次展开:HEKEY--LOCAL-- ...

JAVA上加密算法的实现用例MD5/SHA1，DSA，DESede/DES，Diffie-Hellman的使用(转)

源文作者王辉第1章基础知识 1.1. 单钥密码体制单钥密码体制是一种传统的加密算法,是指信息的发送方和接收方共同使用同一把密钥进行加解密. 通常,使用的加密算法比较简便高效,密钥简短,加解密速度快 ...

windows10-windows 10 如何安装php7.0

问题描述 windows 10 如何安装php7.0 我用php?manager安装,可是我的windows服务器版本是iis6的,找不到这个版本的php?manager,急急急啊!大神们,求救啊! ...

SAX，DOM，JAXP，JDOM，DOM4J 比较分析

首先说一下各种方式的详解: 1.DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准.DOM是以 ...

virtualdub vs2010-virtualdub编译环境搭建

问题描述 virtualdub编译环境搭建现在需要对virtualdub进行编译,我的环境平台为:win7 vs2010 yasm,我已经按照微软官网集成好yasm到vs2010中,但是出现如下错误 ...

QQVoice:网络电话不能一蹴而就

虽然我国网民已近5亿,名副其实的全球互联网用户最多的国家,更显出免费网络电话的潜在用户巨大,但是面对近年来各大巨头纷纷跨领域涉足VoIP网络电话服务以及用户通信习惯等方面的制约,国内网络电话何时才能普 ...

光大网上银行西联收款 google adsense 图解步骤

以前我是在农业银行的柜台上去西联,后来发现这个要浪费上班时间,所以就到光大柜台咨询了一下,原来光大可以在网上收西联,非常方便,支持24小时作业. 第一步,打开光大银行官方网站:http://www.c ...

如何才能有效的降低文件存储所需要的成本投入呢?

文件存储的成本问题一直是企业IT管理员们探讨的问题,要如何才能有效的降低文件存储所需要的成本投入呢?年以来,企业组织已经面临着数据呈指数级数的增长,他们不断的购买更多的存储容量来支持这一增长,而在经济 ...

速途研究院：第1次中国互联网融资统计报告

中介交易 SEO诊断淘宝客云主机技术大厅 2013年互联网行业投资持续回暖,创业者的热门方向.资本市场的投资方向和规模与2012年下半年有很相似的地方.不过在这相似的外表之下正积累着缓慢的变化. ...

android-不使用新的activity，用另一个fragment代替fragment

问题描述不使用新的activity,用另一个fragment代替fragment 下面是我设置的fragment,我想改变fragment的格式.正常情况下我应该使用新的fragment创建一个新的 ...

求网站开发文档(100分)着急

问题描述求网站开发文档越详细越好邮箱:ytywj2005@126.com(请注明您的昵称,便于给分)或者给一个URL在网上找了好久都没找到合适的,希望大家帮忙下!谢谢,分不高,加!!! 解决方案解 ...

Socket编程java.net.BindException: Address already in use: JVM_Bind

问题描述本人最近想学Socket编程:无奈遇到个问题.不知道是啥原因,还请各位不吝赐教.问题是这样的:我想用Socket在服务端读取文本文件,第一次运行的时候,什么都没数出来,(不停止第一次开启的服 ...

Vue.JS入门教程之自定义指令_javascript技巧

基础 Vue.js 允许你注册自定义指令,实质上是让你教 Vue 一些新技巧:怎样将数据的变化映射到 DOM 的行为.你可以使用Vue.directive(id, definition)的方法传入指令 ...

android的消息处理机制(图文+源码分析)—Looper/Handler/Message_Android

这篇文章写的非常好,深入浅出,关键还是一位大三学生自己剖析的心得.这是我喜欢此文的原因.下面请看正文: 作为一个大三的预备程序员,我学习android的一大乐趣是可以通过源码学习google大牛们的设 ...

UCenter 批量添加用户的php代码_php实例

复制代码代码如下: <? //作者:www.tongqiong.com //header("content-type:text/html; charset=utf-8"); ...

详解javascript事件冒泡_javascript技巧

事件是javascript中的核心内容之一,在对事件的应用中不可避免的要涉及到一个重要的概念,那就是事件冒泡,在介绍事件冒泡之前,先介绍一下另一个重要的概念事件流:一.什么是事件流: 文档对象模型(D ...

jQuery中delegate()方法的用法详解_jquery

delegate() 方法为指定的元素(属于被选元素的子元素)添加一个或多个事件处理程序,并规定当这些事件发生时运行的函数.下面我们具体来了解一下. 语法结构: 代码如下: $(selector).d ...

IGM的超级克星

问题描述易吧网吧增值服务系统从此告别重做系统-给您的维护工作带来质的飞跃扇区级分离式还原-全盘保护您服务的网吧,净土级的安全机制顶级穿透还原更新-不再惧怕任何病毒,有效的防止机器狗和IGM游戏自动三 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.023 s.