php中采集抓取页面函数详解

1. file()函数

file() 函数把整个文件读入一个数组中。

与 file_get_contents() 类似,不同的是 file() 将文件作为一个数组返回。数组中的每个单元都是文件中相应的一行,包括换行符在内。

如果失败,则返回 false。

 代码如下 复制代码

<?php
$url='http://www.111cn.net';
$lines_array=file($url);
$lines_string=implode('',$lines_array);
echo htmlspecialchars($lines_string);

?>

2. file_get_contents()函数

file_get_contents() 函数把整个文件读入一个字符串中。

和 file() 一样,不同的是 file_get_contents() 把文件读入一个字符串。

file_get_contents() 函数是用于将文件的内容读入到一个字符串中的首选方法。如果操作系统支持,还会使用内存映射技术来增强性能。

 

 代码如下 复制代码

<?php
$url='http://www.111cn.net';
$lines_string=file_get_contents($url);
echo htmlspecialchars($lines_string);

?>

使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

3. fopen()->fread()->fclose()模式

 代码如下 复制代码

<?php
$url='http://www.111cn.net';
$handle=fopen($url,"rb");
$lines_string="";
do{
    $data=fread($handle,1024);
     if(strlen($data)==0) {
        break;
    }
    $lines_string.=$data;
}while(true);
fclose($handle);
echo htmlspecialchars($lines_string);

4. curl方式

使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需 要拷贝ssleay32.dll和libeay32.dll到C:WINDOWSsystem32下;Linux下要安装curl扩展。

 代码如下 复制代码

<?php
$url='http://www.111cn.net';
$ch=curl_init();
$timeout=5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$lines_string=curl_exec($ch);
curl_close($ch);
echo htmlspecialchars($lines_string);

5. fsockopen()函数 socket模式
socket模式能否正确执行,也跟服务器的设置有关系,具体可以通过phpinfo查看服务器开启了哪些通信协议,比如我的本地php socket没开启http,只能使用udp测试一下了。

还有一个以curl_开头的函数,可以实现很多功能。有时间要好好研究!下面是关于fscokopen的介绍

1.PHP fsockopen函数说明:

Open Internet or Unix domain socket connection(打开套接字链接)

Initiates a socket connection to the resource specified by target .

fsockopen() returns a file pointer which may be used together with the other file functions (such as fgets() , fgetss() , fwrite() , fclose() , and feof() ).就是返回一个文件句柄

开启PHP fsockopen这个函数

PHP fsockopen需要 PHP.ini 中 allow_url_fopen 选项开启。

 代码如下 复制代码

<?php
set_time_limit(0);
$fp = fsockopen("www.111cn.net", 80, $errno, $errstr, 30);
if (!$fp) {
   echo "$errstr ($errno)<br />n";
} else {
   $out = "POST / HTTP/1.1rn";
   $out .= "Host: www.111cn.netrn";
   $out .= "Connection: Closernrn";
   fwrite($fp, $out);
   while (!feof($fp)) {
       echo fgets($fp, 128);
   }
   fclose($fp);
}

时间: 2024-09-15 01:36:26

php中采集抓取页面函数详解的相关文章

实战分析百度站长工具之抓取诊断工具详解

做谷歌优化的朋友对谷歌管理员工具一定不陌生,在谷歌管理员工具中,有"像谷歌一样抓取"功能,现在做百度优化的朋友福利也来了,百度站长工具最近推出"抓取诊断"工具,通过该功能可以更好的辅助SEO优化工作,下面就给大家解释一下该功能的用法和注意事项. 什么是抓取诊断工具 抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致. 每个站点每月可使用300次,抓取结果只展现百度蜘蛛可见的前200KB内容. 注意:要使用抓取诊断工具,前

C语言中改变目录的相关操作函数详解_C 语言

C语言fchdir()函数:改变当前工作目录头文件: #include <unistd.h> 定义函数: int fchdir(int fd); 函数说明:fchdir()用来将当前的工作目录改变成以参数fd 所指的文件描述词. 返回值:执行成功则返回 0, 失败返回-1, errno 为错误代码. 范例 #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <

Go语言中的流程控制结构和函数详解_Golang

这小节我们要介绍Go里面的流程控制以及函数操作. 流程控制 流程控制在编程语言中是最伟大的发明了,因为有了它,你可以通过很简单的流程描述来表达很复杂的逻辑.Go中流程控制分三大类:条件判断,循环控制和无条件跳转. if if也许是各种编程语言中最常见的了,它的语法概括起来就是:如果满足条件就做某事,否则做另一件事. Go里面if条件判断语句中不需要括号,如下代码所示: 复制代码 代码如下: if x > 10 {     fmt.Println("x is greater than 10&

MySQL内置函数中的日期和时间函数详解

下面的例子使用了时间函数.以下询问选择了最近的 30天内所有带有date_col 值的记录: mysql> SELECT something FROM tbl_name -> WHERE DATE_SUB(CURDATE(),INTERVAL 30 DAY) <= date_col; 注意,这个询问也能选择将来的日期记录. 用于日期值的函数通常会接受时间日期值而忽略时间部分.而用于时间值的函数通常接受时间日期值而忽略日期部分. 返回各自当前日期或时间的函数在每次询问执行开始时计算一次.这

Linux中的fork()函数详解

一.fork入门知识 一个进程,包括代码.数据和分配给进程的资源.fork()函数通过系统调用创建一个与原来进程几乎完全相同的进程,也就是两个进程可以做完全相同的事,但如果初始参数或者传入的变量不同,两个进程也可以做不同的事. 一个进程调用fork()函数后,系统先给新的进程分配资源,例如存储数据和代码的空间.然后把原来的进程的所有值都复制到新的新进程中,只有少数值与原来的进程的值不同.相当于克隆了一个自己. 我们来看一个例子: [cpp] view plaincopy        /*  

JavaScript中的apply和call函数详解_jquery

第一次翻译技术文章,见笑了! 翻译原文: Function.apply and Function.call in JavaScript 第一段略. 每个JavaScript函数都会有很多附属的(attached)方法,包括toString().call()以及apply().听起来,你是否会感到奇怪,一个函数可能会有属于它自己的方法,但是记住,JavaScript中的每个函数都是一个对象.看一下 这篇文章 ,复习一下(refresher)JavaScript特性.你可能还想知道JavaScrip

Lua中的模块与module函数详解_Lua

很快就要开始介绍Lua里的"面向对象"了,在此之前,我们先来了解一下Lua的模块. 1.编写一个简单的模块 Lua的模块是什么东西呢?通常我们可以理解为是一个table,这个table里有一些变量.一些函数- 等等,这不就是我们所熟悉的类吗? 没错,和类很像(实际上我说不出它们的区别).   我们来看看一个简单的模块,新建一个文件,命名为game.lua,代码如下: 复制代码 代码如下: game = {} function game.play()     print("那么

Laravel中如何增加自定义全局函数详解

前言 在日常开发工作中,有时候我们需要给 Laravel 添加一些自定义全局函数.当然,我们可以直接修改 Laravel 的 Helpers.php 文件来实现(这是极其不推荐的). 接下来我们讨论以下两种实现方式: 无论是以下哪种方式,都必须创建包含自定义函数的 PHP 文件 方式一:修改 Laravel 根目录下 bootstrap/autoload.php 文件 方式二:修改 composer.json 的 autoload 配置,并更新 composer 的 autoload_files

PHP中校验ISBN码的函数详解

平常我们能够见到的ISBN码有10位和13位两种,其中10位的ISBN自2007年1月起已经停止使用,目前新出版的图书ISBN码都是13位.考虑到一个严谨的图书管理程序要考虑到多方面的问题,因为10位ISBN码的图书还是有巨大的存世量的,所以要校验图书ISBN码的正确性,就必须同时考虑10位和13位的情况.从维基百科可以了解到ISBN码最后一位是校验码,其实要想校验ISBN码的正确,就是通过计算ISBN的校验码,看是否与最后一位吻合.这里所说的校验也只是校验ISBN在构成上是否合法,而不会校验是