一个基于phpQuery的php通用采集类分享

 这是自己以前写的一个php的采集类,自己一直在用,自我感觉很简单很强大,只要懂一点点选择器的知识就可以采集任何页面了,也支持https页面,做简单的采集足够用了

一、采集类源码
 
代码如下:
<?php
  /**
  *通用列表采集类
  *版本V1.3
  *作者:JAE
  */
    require_once '../phpQuery/phpQuery/phpQuery.php';
    class QueryList{
 
        private $pageURL;
         private $regArr = array();
         public $jsonArr = array();
         private $regRange;
         private $html;
         /************************************************
         * 参数: 页面地址 选择器数组 块选择器
         * 【选择器数组】说明:格式array("名称"=>array("选择器","类型"),.......)
         * 【类型】说明:值 "text" ,"html" ,"属性" 
         *【块选择器】:指 先按照规则 选出 几个大块 ,然后再分别再在块里面 进行相关的选择
         *************************************************/
         function QueryList($pageURL,$regArr=array(),$regRange='')
         {
             $this->pageURL = $pageURL;
 
             //为了能获取https://
               $ch = curl_init();
                curl_setopt($ch, CURLOPT_URL,$this->pageURL);
                curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); 
                curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
                curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); 
                $this->html = curl_exec($ch);
               curl_close($ch);
 
             if(!empty($regArr))
             {
 
                  $this->regArr = $regArr;
                 $this->regRange = $regRange;
                 $this->getList();
             }
 
         }
         function setQuery($regArr,$regRange='')
         {
             $this->jsonArr=array();
             $this->regArr = $regArr;
             $this->regRange = $regRange;
             $this->getList();
         }
        private function getList()
         {
 
             $hobj = phpQuery::newDocumentHTML($this->html);
             if(!empty($this->regRange))
             {
             $robj = pq($hobj)->find($this->regRange);
 
              $i=0;
             foreach($robj as $item)
             {
 
                 while(list($key,$reg_value)=each($this->regArr))
                 {
                     $iobj = pq($item)->find($reg_value[0]);
 
                       switch($reg_value[1])
                       {
                           case 'text':
                                 $this->jsonArr[$i][$key] = trim(pq($iobj)->text());
                                 break;
                           case 'html':
                                 $this->jsonArr[$i][$key] = trim(pq($iobj)->html());
                                 break;
                           default:
                                $this->jsonArr[$i][$key] = pq($iobj)->attr($reg_value[1]);
                                break;
 
                        }
                 }
                 //重置数组指针
                 reset($this->regArr);
                 $i++;
              }
             }
             else
             {
            while(list($key,$reg_value)=each($this->regArr))
             {
                $lobj = pq($hobj)->find($reg_value[0]);
 
                   
                   $i=0;
                   foreach($lobj as $item)
                   {
                       switch($reg_value[1])
                       {
                           case 'text':
                                 $this->jsonArr[$i++][$key] = trim(pq($item)->text());
                                 break;
                           case 'html':
                                 $this->jsonArr[$i++][$key] = trim(pq($item)->html());
                                 break;
                           default:
                                $this->jsonArr[$i++][$key] = pq($item)->attr($reg_value[1]);
                                break;
 
                        }
 
                     
                   }
 
        
             }
           }
         }  
         function getJSON()
         {
             return json_encode($this->jsonArr);
         } 
 
}
 
 
二、使用例子
 
 代码如下:
<?php
require 'Query/QueryList.class.php';
 
 
//采集OSC的代码分享列表,标题 链接 作者
$url = "http://www.oschina.net/code/list";
$reg = array("title"=>array(".code_title a:eq(0)","text"),"url"=>array(".code_title a:eq(0)","href"),"author"=>array("img","title"));
$rang = ".code_list li";
$hj = new QueryList($url,$reg,$rang);
$arr = $hj->jsonArr;
print_r($arr);
//如果还想采当前页面右边的 TOP40活跃贡献者 图像,得到JSON数据,可以这样写
$reg = array("portrait"=>array(".hot_top img","src"));
$hj->setQuery($reg);
$json = $hj->getJSON();
echo $json . "<hr/>";
 
//采OSC内容页内容
$url = "http://www.oschina.net/code/snippet_186288_23816";
$reg = array("title"=>array(".QTitle h1","text"),"con"=>array(".Content","html"));
$hj = new QueryList($url,$reg);
$arr = $hj->jsonArr;
print_r($arr);
 
//就举这么多例子吧,是不是用来做采集很方便

时间: 2024-10-22 00:33:38

一个基于phpQuery的php通用采集类分享的相关文章

一个基于phpQuery的php通用采集类分享_php实例

一.采集类源码 复制代码 代码如下: <?php  /**  *通用列表采集类  *版本V1.3  *作者:JAE  */    require_once '../phpQuery/phpQuery/phpQuery.php';    class QueryList{         private $pageURL;         private $regArr = array();         public $jsonArr = array();         private $re

怎么更好地完成一个基于TOP的APP设计?

文章描述:不要让你的产品停留在实验室 抓?昂诵男枨蟆? "赢在淘宝"的应用持续飙升,在距离截止日期还剩两天的时候,已经突破250个了,这个数量还真有些出乎我们的意料.在试用这些应用的时候,发现很多让人眼前一亮的创意,但是当进一步将这个应用和市场结合的时候,就会发现出现"实用断层",也许是因为过于聚焦在"创意"本身,所以在这些应用的设计中往往忽略了用户的核心需求,或者说是对用户核心需求的关注度还不够.产品设计没有通用的理论可以参照,只是从一个终端用

一个基于redis和disque实现的轻量级异步任务执行器

简介 horae是一个基于redis和disque实现的轻量级.高性能的异步任务执行器,它的核心是disque提供的任务队列,而队列有先进先出的时序关系,顾得名:horae. horae : 时序女神,希腊神话中司掌季节时间和人间秩序的三女神,又译"荷莱". horae的关注点不是队列服务的实现本身(已经有不少队列服务的实现了),而是希望借助于redis与disque提供的纯内存的高性能的队列机制,实现一个异步任务执行器.它可以自由配置任务来自哪种队列服务,它不关注任务执行的最终状态(

如何快速实现一个基于Nginx的网站监控场景----需求篇

一切从应用服务监控说起 小明所在的一家小型互联网创业公司一直将应用运行在国内某A云上.该应用采用通用的分布式Nginx+App架构为用户提供电商数据统计的webservice 服务.应用运行至今除偶发各类Bug, 性能问题以外,情况还算良好.   最近,小明的老板给小明布置了一个任务,希望把应用服务监控起来,以提高应用运行质量.老板的需求有三点: 1.    先以应用服务监控为抓手,能 a)     实时统计应用各类服务的调用次数 b)     基于a,实时统计各类服务各类返回值的次数,如200

云效公有云如何构建一个基于Composer的PHP项目

最近在将公司的持续集成架构做一个系统的调整,调整过程中受到了云效公有云团队大量的帮助,分享这篇内容希望能让更多的人了解和用好这个产品. 我会把我最近3个月的使用体会分成5个部分:使用云效公有云的动机.PHP项目集成.JS项目集成.JAVA项目集成.Docker类项目集成这5个分支来写. 因为近期公有云的迭代比较频繁,所以我的分享会比较的浅,点到为止,仅供参考,目录: 1.云效公有云如何耦合进我们的业务 2.如何构建一个基于Composer的PHP项目 3.如何构建一个基于NodeJS的前后端项目

云效(原RDC)如何构建一个基于Composer的PHP项目

最近在将公司的持续集成架构做一个系统的调整,调整过程中受到了RDC团队大量的帮助,所以利用国庆时间写了几篇RDC的分享,希望能让更多的人了解和用好RDC这个产品. 我会把我最近3个月的使用体会分成5个部分:使用RDC的动机.PHP项目集成.JS项目集成.JAVA项目集成.Docker类项目集成这5个分支来写 因为近期RDC的迭代比较频繁,所以我的分享会比较的浅,点到为止,仅供参考,目录: 1.RDC如何耦合进我们的业务 2.如何构建一个基于Composer的PHP项目 3.如何构建一个基于Nod

云效(原RDC)如何构建一个基于NodeJS的前后端项目

最近在将公司的持续集成架构做一个系统的调整,调整过程中受到了RDC团队大量的帮助,所以利用国庆时间写了几篇RDC的分享,希望能让更多的人了解和用好RDC这个产品. 我会把我最近3个月的使用体会分成5个部分:使用RDC的动机.PHP项目集成.JS项目集成.JAVA项目集成.Docker类项目集成这5个分支来写 因为近期RDC的迭代比较频繁,所以我的分享会比较的浅,点到为止,仅供参考,目录: 1.RDC如何耦合进我们的业务 2.如何构建一个基于Composer的PHP项目 3.如何构建一个基于Nod

使用Node.js开发一个基于JavaScript的RESTful应用

REST 风格几乎是为 HTTP 协议量身定做的,在 HTTP 协议中用 URI 来标识唯一的资源,用 GET.PUT.POST.DELETE 等动词来操作资源,HTTP 协议是无状态协议,可以通过 Cache 来提高性能.本文将使用 http://www.aliyun.com/zixun/aggregation/13375.html">Node.js 开发一个基于 JavaScript 的 RESTful 应用. 在 Web2.0 盛行的今天,作为一种可以运行在浏览器客户端的轻量级脚本语

用Kafka和HBase构建一个基于Docker的数据采集器

本文讲的是用Kafka和HBase构建一个基于Docker的数据采集器,[编者的话]本文主要介绍在Docker上,用Kafka和HBase构建一个数据采集器,并用这个采集器用来记录Caltrain Rider这款应用的GPS数据.本文只是一个简单的实践,读者可以将此方法进行拓展,以更好的学习Docker. 不难看出Docker近来发展迅速.分布式计算现在已日益普遍,而适用于分布式环境的开发工具仍在发展之中.一个多平台的应用在开发.测试以及部署方面已经成为一大难题,但好在虚拟机为我们提供了一个非常