php 网页采集入库程序代码

php 网页采集程序总结，最近帮朋友做了个采集程序

以www.xxxx.com/shop_list.php?page=1&province=%B1%B1%BE%A9为例

%B1%B1%BE%A9是gb2312的转码，例如

$aa=”北京”;
$aa = @iconv(“utf-8″, “gb2312″,$aa);
echo $bb=urlencode($aa);

我们通过file_get_contents($url) 抓取网页当然也可以是curl

function getHtml($url){
$ch2 = curl_init($url);
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch2);
curl_close($ch2);
return $html;
}

抓取我们想要的页面数据，可以设定从哪个位置到哪个位置的区间，取出中间数据,通过以下方法实现

function findneed($wholestr,$strkey1,$strkey2)
{
$num1 = strpos($wholestr , $strkey1)+strlen($strkey1);
$num2 = strpos($wholestr ,$strkey2);
$needstr =substr($wholestr ,$num1,$num2-$num1 );
return $needstr;
}
当然这是一种方法，我们只要写出一个php即可，根据分页抓取，但是如果都放在循环里面，岂不是很慢

我们介绍另个算法

通过实现网页跳转页数，抓取，访问程序，不断跳转页数，把当前url的page 数组保存到数据库

其他的无非是些正则表达式的用法：

比如我们想取页面中的所有城市

可用preg_match_all(‘/<select name=”province”(.*?)>(.*?)<\/select>/s’,$html,$selects);即可

(.*?)表示任意字符 . 是任何东西 * 是0至无限 ? 是0至1

还有种算法是递归,类似循环取值

时间： 2024-10-26 08:58:15

php 网页采集入库程序代码

php 网页采集入库程序代码的相关文章

网页视频播放器程序代码（通用代码）_网页播放器

JavaScript防止网页被拷贝程序代码

网页视频播放器程序代码通用代码

asp 网页视频播放器程序代码(通用代码),支持avi,wmv,asf,mov,rm,ra,ram等_网页播放器

php获取网页请求状态程序代码

基于PHP的简单采集数据入库程序_php实例

.net网页采集程序内存越来越大，无法释放

几种PHP实现网页抓取的程序代码

基于PHP的简单采集数据入库程序【续篇】_php实例