php多线程抓取信息测试例子

PHP 5.3 以上版本,使用pthreads PHP扩展,可以使PHP真正地支持多线程。多线程在处理重复性的循环任务,能够大大缩短程序执行时间。

PHP扩展下载:https://github.com/krakjoe/pthreads
PHP手册文档:http://php.net/manual/zh/book.pthreads.php

1、扩展的编译安装(Linux),编辑参数 --enable-maintainer-zts 是必选项:

cd /Data/tgz/php-5.3.8
./configure --prefix=/Data/apps/php --with-config-file-path=/Data/apps/php/etc --with-mysql=/Data/apps/mysql --with-mysqli=/Data/apps/mysql/bin/mysql_config --with-iconv-dir --with-freetype-dir=/Data/apps/libs --with-jpeg-dir=/Data/apps/libs --with-png-dir=/Data/apps/libs --with-zlib --with-libxml-dir=/usr --enable-xml --disable-rpath --enable-bcmath --enable-shmop --enable-sysvsem --enable-inline-optimization --with-curl --enable-mbregex --enable-fpm --enable-mbstring --with-mcrypt=/Data/apps/libs --with-gd --enable-gd-native-ttf --with-openssl --with-mhash --enable-pcntl --enable-sockets --with-xmlrpc --enable-zip --enable-soap --enable-opcache --with-pdo-mysql --enable-maintainer-zts
make clean
make
make install       
 
unzip pthreads-master.zip
cd pthreads-master
/Data/apps/php/bin/phpize
./configure --with-php-config=/Data/apps/php/bin/php-config
make
make install

添加扩展:

 vi /Data/apps/php/etc/php.ini

 extension = "pthreads.so"

一段PHP多线程、与For循环,抓取百度搜索页面的PHP代码示例:

 代码如下 复制代码
<?php 
  class test_thread_run extends Thread  
  { 
      public $url; 
      public $data; 
 
      public function __construct($url) 
      { 
          $this->url = $url; 
      } 
 
      public function run() 
      { 
          if(($url = $this->url)) 
          { 
              $this->data = model_http_curl_get($url); 
          } 
      } 
  } 
 
  function model_thread_result_get($urls_array)  
  { 
      foreach ($urls_array as $key => $value)  
      { 
          $thread_array[$key] = new test_thread_run($value["url"]); 
          $thread_array[$key]->start(); 
      } 
 
      foreach ($thread_array as $thread_array_key => $thread_array_value)  
      { 
          while($thread_array[$thread_array_key]->isRunning()) 
          { 
              usleep(10); 
          } 
          if($thread_array[$thread_array_key]->join()) 
          { 
              $variable_data[$thread_array_key] = $thread_array[$thread_array_key]->data; 
          } 
      } 
      return $variable_data; 
  } 
 
  function model_http_curl_get($url,$userAgent="")  
  { 
      $userAgent = $userAgent ? $userAgent : 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)';  
      $curl = curl_init(); 
      curl_setopt($curl, CURLOPT_URL, $url); 
      curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); 
      curl_setopt($curl, CURLOPT_TIMEOUT, 5); 
      curl_setopt($curl, CURLOPT_USERAGENT, $userAgent); 
      $result = curl_exec($curl); 
      curl_close($curl); 
      return $result; 
  } 
 
  for ($i=0; $i < 100; $i++)  
  {  
      $urls_array[] = array("name" => "baidu", "url" => "http://www.baidu.com/s?wd=".mt_rand(10000,20000)); 
  } 
 
  $t = microtime(true); 
  $result = model_thread_result_get($urls_array); 
  $e = microtime(true); 
  echo "多线程:".($e-$t)."n"; 
 
  $t = microtime(true); 
  foreach ($urls_array as $key => $value)  
  { 
      $result_new[$key] = model_http_curl_get($value["url"]); 
  } 
  $e = microtime(true); 
  echo "For循环:".($e-$t)."n"; 
?>

例子,采集数据

 

 代码如下 复制代码

<?php
$urls = array(
'http://www.111cn.net/',
'http://www.sohu.com/',
'http://www.163.com/'
);

$save_to='/test.txt'; // 把抓取的代码写入该文件
$st = fopen($save_to,"a");

$mh = curl_multi_init();
foreach ($urls as $i => $url) {
$conn[$i] = curl_init($url);
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
curl_setopt($conn[$i], CURLOPT_HEADER ,0);
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 设置不将爬取代码写到浏览器,而是转化为字符串
curl_multi_add_handle ($mh,$conn[$i]);
}

do {
curl_multi_exec($mh,$active);
} while ($active);

foreach ($urls as $i => $url) {
$data = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串
fwrite($st,$data); // 将字符串写入文件。当然,也可以不写入文件,比如存入数据库
} // 获得数据变量,并写入文件

foreach ($urls as $i => $url) {
curl_multi_remove_handle($mh,$conn[$i]);
curl_close($conn[$i]);
}

curl_multi_close($mh);
fclose($st);
?>

时间: 2024-08-31 04:50:00

php多线程抓取信息测试例子的相关文章

Python多线程抓取代理服务器的例子

Python作为一门功能强大的脚本语言来说,经常被用来写爬虫程序,下面是Python爬虫多线程抓取代理服务器. 现在抓取 http://www.proxy.com.ru 的代理服务器,这里的代理服务器更多,更简单. 下面代码可以直接用,代码如下: #!/usr/bin/env python #coding:utf-8 #BLOG: blog.linuxeye.com import urllib2 import re import threading import time import MySQ

一个从别的网站抓取信息的例子(域名查询

<?   if (isset($xx)) { $dodo=@file("http://www.e9china.com/cgi-bin/comdns.pl?raw=1&lookup=OK&fqdn=".$fqdn."&domain=".$domain."&root=".$root."&cdomain=2.7");    $i=0; while($dodo[$i]) {    echo

一个从别的网站抓取信息的例子(域名查询)_php基础

<?   if (isset($xx)) { $dodo=@file("http://www.e9china.com/cgi-bin/comdns.pl?raw=1&lookup=OK&fqdn=".$fqdn."&domain=".$domain."&root=".$root."&cdomain=2.7");    $i=0; while($dodo[$i]) {    echo

如何让百度蜘蛛来抓取信息

深切体会,知道如何让百度蜘蛛来抓取信息!小女子原创(帮一个美女发的)她在做一个武汉保洁公司--武汉明紫物业 的网站优化,目前关键词:武汉保洁.武汉保洁公司.武汉清洗.武汉外墙清洗等关键词都排名很好,月色聊人也很佩服她,她刚刚亲手写的软文--分享如何知道让百度蜘蛛来抓取网站信息,如下: 如何免费发布信息 还能被百度收录 真是一件很头大的事 我想大多数网站维护员或是seo看到这个都不觉得奇怪了.21世纪将我们带入了一个以计算机技术为核心的信息时代,打开电脑,各大分类信息网站数不胜数,广告发布.信息推

《精通Wireshark》—第1章1.5节抓取信息的方式

1.5 抓取信息的方式抓取网络数据包有很多不同的方法.管理员可以根据需求的不同,有针对性地对协议分析软件进行配置,并将它部署在网络中的某个位置. 1.5.1 基于集线器的网络基于集线器的网络是最容易抓取数据包的,在这种环境中管理员可以把协议分析软件部署在任何地方,因为集线器会将所有数据包广播到它们所在的整个网络中.有鉴于此,我们根本不用考虑在哪里部署数据包分析软件.然而,集线器亦有其弱点,由于数据包之间会发生冲突,因此集线器网络的性能也会显著降低.由于集线器中没有任何按照优先级转发数据包的机制,

php curl实现多线程抓取网页并同时下载图片

php语言本身不支持多线程,所以开发爬虫程序效率并不高,借助Curl Multi 它可以实现并发多线程的访问多个url地址.用 Curl Multi 多线程下载文件代码: 代码1:将获得的代码直接写入某个文件 <?php $urls =array(   'http://www.111cn.net/',   'http://www.baidu.com/',  );// 设置要抓取的页面URL       $save_to='test.txt';  // 把抓取的代码写入该文件      $st =

PHP使用CURL实现多线程抓取网页

  PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址.既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件 ? 1 2 3 4

PHP使用CURL实现多线程抓取网页_php技巧

PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址.既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件 <?php $urls

PHP多线程抓取网页实现代码_php技巧

受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址.既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件 复制代码 代码如下: <?php $urls = array( 'http://www.sina.com.cn/', 'http://w