火车头免费版为zencart网站采集多张图片

相信很多刚开始学习火车头的菜鸟们,也和烂泥一样使用的是火车头免费版,然后为我们的zencart网站进行一些产品数据的采集。但是在写采集规则的时候,会经常碰到的一个问题就是如何采集一个产品的多张图片。

采集一张图片的规则,相信大家都会写了。那么多张图片呢?如何写呢?其实,这个和我们写采集一张图的是一样的,只是在一些细节上面设置正确就ok了。下面我就自己采集的一个站点给各位做一下讲解。

我们知道要采集一个网站的图片,那么我们肯定是在火车头使用img标签来进行的。

要采集多张图片,我们肯定要找出来这些图片在源码中的代码。我下面举例来进行讲解:

在上图中是标记出来的1和2是两张不同的图片,但是我们仔细的观察可以发现img标签中,如果把图片的源地址和alt去掉的话,那么其他的都是一样的。而火车头有一个标签循环使用的功能,这就为我们采集多张图片提供了一个方便。我现在把源码粘贴出来:

<img src="http://www.simplydresses.com/_img/PRODUCTS/320/PromGirl-767611310.jpg" width="68" border="0" alt="Long One Shoulder Formal Dress P641 TI-P641" />

然后在火车头中进行采集规则的编写:

在数据提取方式中,我们选择了“正则提取”,而“正则匹配内容”中填写如下:

<img src="http://www.simplydresses.com/_img/PRODUCTS/[参数]/[参数]"(*)width="(*)"(*)border="(*)"(*)alt="(*)"(*)/>

组合结果中填写如下:

<img src="http://www.simplydresses.com/_img/PRODUCTS/[参数1]/[参数2]"/>

其中正则匹配内容第一个“参数”对应的是组合结果中的“参数1”,正则匹配内容第二个“参数”对应的是组合结果中的“参数2”,而其中的“*”是任意匹配的意思。

上图是设置好后,采集测试的结果

这个是导出的结果。

Ok,以上我们可以看到要采集多张图片,只要我们设置好了采集标签,然后此标签可以循环使用,就可以达到我们要的结果了……

时间: 2024-11-02 09:55:08

火车头免费版为zencart网站采集多张图片的相关文章

网站采集器介绍

常用的网络采集器主要分为桌面版和服务器版:桌面版是基于window等平台,通过本地带宽来进行资料采集与发布程序,主要代表有"火车头网站采集器"和 "EditorTools":服务器版是采用PHP或ASP编程,运行于Linux或windows主机,通过服务器带宽来进行资料采集与发布程序,主要 代表有"小蜜蜂网站采集器".两大类采集器孰优孰劣不言而喻 PHP采集程序中常用的函数 Java代码   <?php   //去除HTML标记   fun

防止被百度K站的网站采集经验

网站信息采集是指非结构化的信息从其他大量的网页中提取出来保存到结构化的数据库中的过程.网站内容采集有利也有弊,过多的采集网站内容会被搜索引擎认为网站内容重复,时个垃圾站,会有被K站的可能,下面我就与大家分享下我防百度K站的网站采集经验.希望对大家有所帮助: 首先我们先来了解下网站内容采集的好处与坏处: 网站内容采集的好处 网站内容采集可以让你的网站的收录在短时间内得到大量的提升(你网站必须有高权重),能够网络大部分的流量,抓住其他竞争手的流量. 网站内容采集的坏处 每天大量的采集,百度可能会认为

做小网站采集文章,采还是不采?

做网站有一段时间了,自己做的也是小网站,小网站刚起步内容比较少,流量少,所以暂时只能靠采集生存,存,但是怎么样采集呢,采集有哪些好处,又有哪些坏处呢? 世界是矛盾的,我们一分为二两看,先看采集的好处: 1.迅速建立一个相对充实完整的数据库.这会给浏览者的较好的体验,他们会认为这个网站内容很好,很完善,应该是一个不错的网站,这就抓住了用户的心理,在流量上会有好的收获. 2.从搜索引擎引来更多IP.现在的网站流量主要来自搜索引擎,所以采集更多的网页内容,理论上会被搜索引擎收录更多,虽然某一关键词你的

网站采集内容的弊端

我们作为站长的每天要做的就是给网站更新内容,更新内容的同时也在不段的总结,如何能省时省事又快又好的更新网站内容.今天我们就用我的采集之路破灭,来谈谈采集内容的一些弊端. 一. 显示内容过滤不完 为什么说采集内容快,质量不高.因为现在的站长不在是以前的站长了,你用程序化的采集内容,内容中的关键字你是过滤不完的,有一些不利的外链可以说是数不胜数.给大家举个例子吧.比如我的网站"站长ABC(Aabc.cn)"当我更新一个内容到我的网站上时,我想在文章中出现这个网名的时候,可以有多种方式,比如

网站采集抄袭的绝招

首先要说的是,原创我们肯定要有,不能放弃,很多新手站长一味抄袭成灾根本没用,用CMS的采集系统你个新站用了根本没什么用处,采集对于中小站这其实是很正常的,为什么人家采集走就能收录和快照你就变成被K的对象和作弊的对象了呢? 采集当然会有很多站点的站长会用一套很好的辅助工具来采集,具体是啥我也不知道,他们大量采集,比如Admin5每出一篇好文章他们马上都采集走了而且也得到了百度的认同那是为什么,因为人家权重够已经够成了一个知名的站点,这也是个条件!当然不知道我说的对不对哈. 下面我就是告诉大家怎么个

PHP图书网站采集实例教程

在网上看到很多简单的采集教程,尤其是针对图书网站的比较多,但附带实例的并不多,在看了一篇针对八路中文网的抓取分析后,决定针对这个网站,写一个简单的抓取教程,并附带实例.由于俺偷懒,文中很多分析都是来自<利用PHP制作简单的内容采集器>,俺只是进一步优化了他的流程,并完成了代码实例的编写.   采集程序其实并不难做,只要分析清楚流程,然后使用合适的正则来取到你想要的内容就可以了.废话不说了,教程开始:   1.分析入口:   多打开几本书后,可以发现书名的基本格式是:http://www.86z

防网站采集非常有效的办法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 今天在坛子里看到许多朋友的网站被采集,看到他们大为光火,实属无奈,网站内容精彩,发展红火,赚钱不少,突然有一天自己的心血化为乌有,一直为一些垃圾网站的采集所苦恼.有时一个月的心血,编辑更新的内容,采集者一分钟就不到就解决问题,据为已有,有时采集量大时还会造成服务器奇慢,影响用户访问,简直比强奸还过之. 为了防止采集,绝大多数方法是"

php curl网站采集的实现程序

选择curl的理由 关于curl与file_get_contents,摘抄一段通俗易懂的对比: file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_exists,fopen,fread,fclose,专门提供给懒人用的,而且它主要是用来对付本地文件的,但又是因为懒人的原因,同时加入了对网络文件的支持: curl是专门用来进行网络交互的库,提供了一堆自定义选项,用来应对不同的环境,稳定性自然要大于file_get_contents. 使用方法 1.开启curl支

懂C#采集的进来我遇到一个问题其他页面都可以采集就一个网站采集不了..str为空

问题描述 HttpWebRequestrequest=(HttpWebRequest)WebRequest.Create(url);HttpWebResponseresponse=(HttpWebResponse)request.GetResponse();StreamReaderreader=newStreamReader(response.GetResponseStream());stringstr=reader.ReadToEnd();reader.Close();response.Clo