php 正则表达式 取标题,关键词,内容代码

//获取标题
  $inarr = array();
  preg_match("/<title>(.*)</title>/isU",$body,$inarr);
  if(isset($inarr[1]))
  {
   $redatas['title'] = $inarr[1];
  }

  //获取关键词
  $inarr = array();
  preg_match("/<meta[s]+name=['"]keywords['"] content=['"](.*)['"]/isU",$body,$inarr);
  if(isset($inarr[1]))
  {
   $redatas['keywords'] = cn_substr(html2text($inarr[1]),30);
  }

  //获取摘要
  $inarr = array();
  preg_match("/<meta[s]+name=['"]description['"] content=['"](.*)['"]/isU",$body,$inarr);
  if(isset($inarr[1]))
  {
   $redatas['description'] = cn_substr(html2text($inarr[1]),$cfg_auot_description);
  }

  //获取内容
  if($s!='' && $e!='')
  {
   $redatas['body'] = GetHtmlAreaA($s,$e,$body);
   if($redatas['body']!='' && $redatas['description']=='')
   {
    $redatas['description'] = cn_substr(html2text($redatas['body']),$GLOBALS['cfg_auot_description']);
   }
  }
 }
 return $redatas;

时间: 2024-10-28 07:56:42

php 正则表达式 取标题,关键词,内容代码的相关文章

php正则表达式获取标题关键词和内容代码

采集在现在的cms中都常常用到哦,下面我们就来看看关于php 正则表达式 取标题,关键词,内容代码源码哦. //获取标题   $inarr = array();   preg_match("/<title>(.*)</title>/isU",$body,$inarr);   if(isset($inarr[1]))   {    $redatas['title'] = $inarr[1];   } //获取关键词   $inarr = array();   pr

c# 正则表达式对网页进行内容抓取

原文 c# 正则表达式对网页进行内容抓取 搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.

利用curl抓取远程页面内容的示例代码

利用curl抓取远程页面内容的一个小示例,需要的朋友可以过来参考下   最基本的操作如下 复制代码 代码如下: $curlPost = 'a=1&b=2';//模拟POST数据 $ch = curl_init(); curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0'));  //构造IP curl_setopt($ch, CURLOPT_REFERER, "ht

使用php方法curl抓取AJAX异步内容思路分析及代码分享_php实例

其实抓ajax异步内容的页面和抓普通的页面区别不大.ajax只不过是做了一次异步的http请求,只要使用firebug类似的工具,找到请求的后端服务url和传值的参数,然后对该url传递参数进行抓取即可. 利用Firebug的网络工具                                                               如果抓去的是页面,则内容中没有显示的数据,是一堆JS代码. Code                                    

c#代码-C#如何利用正则表达式读取网页指定内容

问题描述 C#如何利用正则表达式读取网页指定内容 C#如何利用正则表达式读取网页指定内容,求高手指点,直接上传源代码也行,非常感谢帮助

零基础写python爬虫之抓取糗事百科代码分享_python

项目内容: 用Python写的糗事百科的网络爬虫. 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行. 程序功能: 在命令提示行中浏览糗事百科. 原理解释: 首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1 可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备. 然后,右击查看页面源码: 观察发现,每一个段子都用div标记,其中class必为content,title是发帖时间,我们只需

Node.js环境下编写爬虫爬取维基百科内容的实例分享_node.js

基本思路思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中.这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务. 思路二(origin:cat):按分类进行抓取.注意到,维基百科上,分类都以Category:开头,由于维基百科有很好的文档结构,很容易从任一个分类,开始,一直把其下的所有分类全都抓取

从细节方面重视网站标题关键词的设置

做过网页设计的站长或者使用过drmeaweaver软件设计网页的站长都会明白,网页设计首先将标题关键词以及描述写入网页代码之中,虽然这些信息网站访问用户不能完全的看到,但是凭借多年对搜索引擎的观察和研究,对于网站头部关键词设置,关键词描述的重视程度逐渐增加,在搜索引擎新一轮的改革中,相关性决定网站命运,而网站头部关键词的设置是搜索引擎最重要的判别标准,因此对于网站标题的关键词设置各位站长不容忽视,那么如何设置好关键词,详细总结如下. 一.标题关键词的前后位置 对网站关键词优化有点经验的个人网站,

php获取网页标题和内容函数

有时候我们需要获取网页的标题与内容,就是个采集函数,这里简单分享下,方便需要的朋友  代码如下: function getPageContent($url) {              //$url='http://www.ttphp.com;              $pageinfo = array();            $pageinfo[content_type] = '';            $pageinfo[charset] = '';            $pag