PHP实现采集抓取淘宝网单个商品信息_php技巧

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

思路:

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

复制代码 代码如下:

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图:

复制代码 代码如下:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

复制代码 代码如下:

preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)

C.获取价格:

复制代码 代码如下:

preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;
$price=floatval($price);//放入数据库估计还有转一下变量类型

D.获取属性:

这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如

复制代码 代码如下:


 
<div id=”xxx”>
 

 
<ul>
 

 
</ul>
 
<div>…
 
<div>…
 
</div>
 
</div>
 
</div>
 

这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>,所以我们可以采用变通法达到获取属性标签内容的目的。

复制代码 代码如下:

preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//这个正则会抓取<div开始到整个页面最后一个</div>标签,当然我们属性标签就在这个的前面部分。
 
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。
 
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。

E.获取描述:

通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。

好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“<div id=”detail”> </div>

复制代码 代码如下:

<div id="description">
 
<div id="J_DivItemDesc">描述加载中</div>
 
</div>

这几个div是加载描述所必须的,那么下面就是写代码了:

复制代码 代码如下:

preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//页面js脚本
 $content=$content[0];
 $description='<div id="detail"> </div>
  <div id="description">
   <div id="J_DivItemDesc">描述加载中</div>
  </div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。

时间: 2024-08-02 08:21:33

PHP实现采集抓取淘宝网单个商品信息_php技巧的相关文章

电商网站数据抓取-使用什么方法抓取淘宝、天猫、京东和当当网的店铺和商品信息?

问题描述 使用什么方法抓取淘宝.天猫.京东和当当网的店铺和商品信息? 由于这些电商网站有一部分产品信息是通过JS脚本动态填充进去的,能直接在网页源码里面获取到的产品信息相当有限,请问各位大神使用什么技术可以抓取到店铺和商品的完整信息? 解决方案 API API API API API 解决方案二: http://blog.csdn.net/xuyaogyo/article/details/40918483 解决方案三: 看看这个,支持淘宝.京东.天猫店铺 http://jingyan.baidu

php+curl+302+淘宝-用curl抓取淘宝页面信息,本地可以,服务器却不行

问题描述 用curl抓取淘宝页面信息,本地可以,服务器却不行 看下面的代码,在本地appach服务器可以正常打印出页面内容,但是到服务器上却提示15s 的timeout错误: $htmlstr = get_html("http://detail.tmall.com/item.htm?id=41159437194"); echo $htmlstr; function get_html( $url ) { $ch = curl_init(); curl_setopt($ch, CURLOP

网页-如何网络爬虫抓取淘宝交易数据

问题描述 如何网络爬虫抓取淘宝交易数据 小弟学软件的,现在想开淘宝店,想想怎么能快速获得用户数据推广产品,问问说网络爬虫可行,可是对这方面不了解,有哪位大神可以教一下,获取自己和其他用户网页上的商品信息之类的,作为分析. 解决方案 搜索引擎如百度都不让抓淘宝里的交易数据,淘宝的安全工程师都不是吃素的,建议你换个课题吧 解决方案二: 可以先看看对应数据的http,浏览器查看一下是否有对应的api,然后再考虑怎么发送请求 解决方案三: 关于电商网站的爬虫,大家可以学习一下这个系列的教程:http:/

php file_get_contents转curl抓取淘宝属性

问题描述 php file_get_contents转curl抓取淘宝属性 以下代码如何改为用 curl来抓取呢?并且以商品的IID保存 function get_shuxing($type,$iid){ if($type=='tmall'){ $text=file_get_contents("http://detail.tmall.com/item.htm?id=$iid"); preg_match('| (.*) |isU',$text, $match); }elseif ($ty

php-curl抓取淘宝首页抓取不到。

问题描述 curl抓取淘宝首页抓取不到. 列表页面"> 这是我的代码,抓取淘宝一直抓取不到. 解决方案 curl得到的内容和你浏览器查看源代码后得到的一样,js动态添加的内容和ajax动态加载的无法获取 解决方案二: 数据都是js 动态生成的,你获取的只是代码. 解决方案三: 淘宝应该有防抓取设置 一般是通过判断请求来源来防止抓取 你可以在浏览器中访问时抓一下包 分析一下它的请求头数据 模拟一下啥 解决方案四: 页面是动态生成的,你没办法直接拿到内容,

PHP抓取淘宝商品的用户晒单评论+图片+搜索商品列表实例_php实例

说起来做这个功能还真是一时好奇.前段时间在做一个淘客网站的时候,想到是否能抓取到淘宝商品的买家秀呢?经过一番折腾发现,淘宝商品用户评价信息是通过Ajax来调取的,通过嗅探网址发现,评论数据的请求接口是: https://rate.tmall.com/list_detail_rate.htm?itemId=524394294771&spuId=341564036&sellerId=100414600&order=3&currentPage=1&append=0&

php curl抓取网页的介绍和推广及使用CURL抓取淘宝页面集成方法_php实例

 php的curl可以用来实现抓取网页,分析网页数据用, 简洁易用, 这里介绍其函数等就不详细描述, 放上代码看看: 只保留了其中几个主要的函数. 实现模拟登陆, 其中可能涉及到session捕获, 然后前后页面涉及参数提供形式. libcurl主要功能就是用不同的协议连接和沟通不同的服务器~也就是相当封装了的sock PHP 支持libcurl(允许你用不同的协议连接和沟通不同的服务器)., libcurl当前支持http, https, ftp, gopher, telnet, dict,

能否抓取淘宝卖家资料

问题描述 请问大家有没有免费的软件或源程序,能够获取或抓取淘宝C和B店的卖家资料,谢谢? 解决方案 解决方案二:淘宝有提供API解决方案三:http://open.taobao.com/doc/api_list.htm?id=102解决方案四:t淘宝开放平台上有借口,但是有些东西是不是随便就可以调的

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)_AJAX相关

在学习python的时候,一定会遇到网站内容是通过 ajax动态请求.异步刷新生成的json数据 的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看本文内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一 获取淘宝评论时,ajax请求链接(url) 二 获取该ajax请求返回的json数据 三 使用python解析json数据