php 文章采集正则代码_php技巧

复制代码代码如下:

//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}

//获得标题和url
$string =
getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正则匹配<li>获取标题和地址
preg_match_all ("/<li><a href=\"\/learn\/article\/(.*)\">(.*)<\/a>/",$string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2];
$article['link'][] = "http://www.***.com/learn/article/".$out[$key][1];
}
//根据url获取文章内容
foreach($article['link'] as $key=>$value){
$content_html = getwebcontent($article['link'][$key]);
preg_match("/<div id=pagenum_0(.*)>[\s|\S]*?<\/div>/",$content_html,$matches);
$article[content][$key] = $matches[0];

}
//不转码还真不能保存成文件
foreach($article[title] as $key=>$value){
$article[title][$key] = iconv('utf-8', 'gbk', $value);//转码
}
//存入文件
$num = count($article['title']);
for($i=0; $i<$num; $i++){
file_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
}
?>

时间： 2024-10-03 19:03:55

php 文章采集正则代码_php技巧的相关文章

php知道与问问的采集插件代码_php技巧

最近发现知道和问问小偷的版本越来越多了!! 看过一个百度小偷的网站也达到了pr6.收录十万多!! 在经过荐礼啦四十天的实践之后发现百度对这个确实挺友好的. 从网站访问来看很多也是从百度搜索来的! 所以用知道和问问来填充网站内容还是可行的. 于是自己开发了一个知道问问的采集插件原则上适合 php+mysql 并且文章是在一个表的程序知道采集代码复制代码代码如下: <?php session_start(); header("content-type:text/html;ch

php添加文章时生成静态HTML文章的实现代码_php技巧

PHP生成静态文章HTML,有批量的生成,但比较标准的应该是在添加文章时就生成HTML文章,编辑时再重新生成HTML文章,删除文章时同样也样删除多余出来的HTML文章,这时批量生成就显得有点力不从心了,下面就介绍一下PHP在添加文章时如何生成静态的HTML文件. 简单的添加文章表单这里就不写了,下面的这些源码是接受表单传过来的值而执行的程序源码,可以先拿过去测试一下... 复制代码代码如下: <?php ob_start(); require_once("../inc/conn.

PHP音乐采集(部分代码)_php技巧

<?PHP set_time_limit(0); mysql_connect("localhost","root",""); mysql_select_Db("music_36g"); $ip = '127.0.0.1'; function _GetIP() { $ip = getenv("REMOTE_ADDR"); $ip1 = getenv("HTT

php FPDF类库应用实现代码_php技巧

复制代码代码如下: <?php require('chinese.php'); class PDF extends PDF_Chinese { function Header() //设置页眉 { $this->SetFont('GB','',10); $this->Write(10,'XX公司产品名录'); $this->Ln(20); //换行 } function Footer() //设置页脚 { $this->SetY(-15); $this->SetFon

PHP simple_html_dom.php+正则采集文章代码_php技巧

复制代码代码如下: <?php //包含PHP Simple html Dom 类库文件 include_once('./simplehtmldom/simple_html_dom.php'); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER,

php采集文章中的图片获取替换到本地(实现代码)_php技巧

复制代码代码如下: /** * 获取替换文章中的图片路径 * @param string $xstr 内容 * @param string $keyword 创建照片的文件名 * @param string $oriweb 网址 * @return string * */function replaceimg($xstr,$keyword, $oriweb){ //保存路径 $d = date('Ymd', time()); $dirslsitss = '/var/www

利用PHP制作简单的内容采集器的代码_php技巧

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的.关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的. 前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展. 用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读

PHP正则匹配日期和时间(时间戳转换)的实例代码_php技巧

先来一个比较简单实用的代码日期YYYY-MM-DD $str = ''; $isMatched = preg_match('/^\d{4}(\-|\/|.)\d{1,2}\1\d{1,2}$/', $str, $matches); var_dump($isMatched, $matches); php需要一定的时间格式才能转换成时间戳(表示从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数),这就要用到php正则判断,以下是代码: <?php //匹配时间格式为2016-0

PHP+ACCESS 文章管理程序代码_php技巧

复制代码代码如下: <?php session_start(); //========================== //作者:biyuan //时间:2006.07 //联系:QQ6010707 //========================== ?> <html> <head> <title>碧原网络PHP+ACCESS文章管理系统</title> <meta http-equiv="content-type&q

猜你喜欢

php文件上传

文件上传一般有下面2种方式: 有两种: 1.标准input表单方式,典型的用$_FILES进行接收: 2.以Base64的方式进行传送,一般是AJAX异步上传. 第一种标准的input表单方式,适用 ...

Photoshop制作端午节艺术烟雾水墨字

烟雾水墨字最好的制作方法就是直接用烟雾素材来制作.过程:先设置好想要的文字或图形;截取烟雾素材,通过变形贴到文字的画笔上面;后期处理一下细节,再用滤镜等增强效果即可. 最终效果 1.新建一个100 ...

php字符串替换函数str

php里字符串替换的函数,有str_replace().str_ireplace().substr_replace().preg_replace().strtr()等几个,程序员在写程序的时候,往往会 ...

每个Java初学者都应该搞懂的六个问题

初学|问题对于这个系列里的问题,每个学Java的人都应该搞懂.当然,如果只是学Java玩玩就无所谓了.如果你认为自己已经超越初学者了,却不很懂这些问题,请将你自己重归初学者行列.内容均来自于CSDN ...

SQL Server和XML的集成(1)

server|xml SQL Server和XML的集成作者: BUILDER.COMWednesday, June 19 2002 10:11 AM XML可谓最新的数据存储解决方案了.XML相比 ...

WAP中的ASP技术之五

WAP中的ASP技术第四节:另一种预订你电影票的方法在上一节中,我讲解了最基本的WAP和WML的概念,这一节我们就来看看ASP和WAP是如何结合的. 现在在奥斯陆,电影院提供了一种基于电话系统的来 ...

用sql*plus构建excel或html输出

本例通过简单示例,介绍通过sql*plus输出xls,html两种格式文件. 通过SQL*PLUS我们可以构建友好的输出,满足多样化用户需求.本例通过简单示例,介绍通过sql*plus输出xls,ht ...

防止Windows死机的24招技巧

1.CPU.显示卡等配件不要超频过高,要注意温度,否则,在启动或运行时会莫名其妙地重启或死机. 2.在更换电脑配件时,一定要插好,因为配件接触不良会引起系统死机. 3.BIOS设置要恰当,虽然建议将B ...

plsql developer怎么使用

1.首先plsql developer 2.登陆成功后即可进入对象浏览器窗口界面 3.在对象浏览器选择"my object",这里边就是SCOTT(当前登陆的用户的所有obje ...

360安全浏览器崩溃怎么办

方法一:360浏览器开太多标签占用了内存问题,并且随着浏览器开着的时间越长,占用内存量就越大.我们可以使用360安全卫士的加速器让不必要的进程释放. 方法二:采用任务管理器结束你不要的进程方法三 ...

好照片HDR再现设计师眼中的室内殿堂

一位建筑设计师是这样看待室内建筑摄影的:一张不能再现设计师意图的作品不是好作品.的确,建筑设计师和摄影师的影响是相互的,优秀的建筑摄影并非对建筑本身的忠实再现,而是既真实又富有创造力的表现,而这种创 ...

Beyond Compare更改过滤文件夹颜色方法

Beyond Compare更改过滤文件夹颜色方法具体操作方法如下所示步骤一:打开Beyond Compare软件,在主页面中选择"文件夹比较"会话,打开 ...

数据存数组，新人求大神们解答啊

问题描述数据存数组,新人求大神们解答啊我从页面取到的值是 A1A2A3A4A5................不知道用户会输入多少我怎么把这些数据保存到数组呢解决方案 String类的spli ...

apache无法启动，也没有错误报告

问题描述 apache无法启动,也没有错误报告我按照网上的教程一步步配置安装,一开始是可以启动的,后来安装php,在配置php与apache兼容后就启动不了了.遇到的错误也都更改完毕,errorlo ...

VirtualBox 导出虚拟电脑可能遇到的陷阱

实验要用到多台虚拟机.于是装好了xp后,先导出虚拟电脑,再导入. 当然,用命令,也可以直接复制一个新的虚拟磁盘文件.不过,懒得管理快照,就直接导出虚拟电脑了. 再次导入刚才导出的虚拟电脑,在做网络 ...

Exchanges 14sep11发布一个Bash CGI脚本

Exchanges是一个Bash CGI脚本用于循环发布公开的帖子.它允许注入新帖子之间的旧文章.帖子的作者可以编辑或删除它们.任何人都可以发表意见.默认情况下,一个视图可以查看第N个帖子.所有页面链 ...

判断网上邻居文件存在与否方法

由于java不支持通过//192.168.19.168/fz/OK/张立辰-国画/jpg/ZLC-鱼1-X.jpg这种路径需要将路径映射为本地盘,则可 package test; imp ...

记录用户在线时间

前言同事在弄一个叫学习空间的系统,其中需要记录用户的在线时间,于是我就帮忙实现一下,那个系统的其他部分都没参与过.不过功能实现得还可以,就小结一下也看看能不能有更好的解决方法. 正文思路:在页 ...

关于MyEClipse6.5版本提交代码到svn服务器

问题描述关于MyEClipse6.5版本提交代码到svn服务器如图,就修改了一个jsp文件,上传时就是这样,99%就不再动了解决方案是网络线路的问题吧,你在文件夹里直接提交试试

这样的SQL如何用DetachedCriteria实现

问题描述 selectto_char(statDate,'yyyy-MM')assDatefromAgroupbysDate? 解决方案本帖最后由 zhenxiaguozhi 于 2009-08-2 ...

.net-网页导出文档时COMException (0x800a13e9):内存不足请现在保存文档？

问题描述网页导出文档时COMException (0x800a13e9):内存不足请现在保存文档? 解决方案 word挂了?是不是占有内存太多了.

Hadoop面试45个题目及答案

1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个 ...

微博营销经典案例：笨NANA的营销浅析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅你是否吃过可以像香蕉一样剥皮的冰淇 ...

《深入理解Spark:核心思想与源码分析》——3.4节SparkUI详解

3.4 SparkUI详解任何系统都需要提供监控功能,用浏览器能访问具有样式及布局并提供丰富监控数据的页面无疑是一种简单.高效的方式.SparkUI就是这样的服务,它的架构如图3-1所示. 在大型分 ...

JournalDev 博客的 Java 教程集合（JournalDev Java Tutorials Collections）

Tutorials I have written a lot of posts here into many categories and as the number of post grows, k ...

《威胁建模：设计和交付更安全的软件》——2.5　小结

2.5 小结威胁建模的方法不止一种,可以采用资产建模.攻击者建模或软件建模."你的威胁模型是什么"和集体研讨方法,适用于安全专家,但是对没什么经验的威胁建模者来说,结构化不足.集 ...

c++ 排序-c++的一道简单排序问题

问题描述 c++的一道简单排序问题代码我写好了,可是出了一些问题,请指教! 问题描述给定一个长度为n的数列,将这个数列按从小到大的顺序排列.1<=n<=200输入格式第一行为一个整数 ...

日本大和投资在华设立首只人民币创投基金

9月18日消息今天,日本第二大券商日本大和SMBC投资株式会社(以下简称"大和投资")在武汉宣布设立首只规模达到4亿元的中外合作创业投资基金--湖北高和创业投资基金. 据了解,这 ...

在ASP.NET 2.0中操作数据之四十七：用SqlDataSource控件插入、更新、删除数据_自学过程

导言: 正如在教程概述插入.更新和删除数据里讨论的那样,GridView控件内置更新和删除功能,而DetailsView和FormView控件不仅具有编辑和删除功能,还有插入功能.我们不要写一行代码就 ...

hibernate 常用方法介绍_java

一.hibetnateTemplate常用方法 1.delete(Object entity) 删除指定的持久化实例在程序中一般先用 Assert.notNull和 Assert.isTrue断 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.