网页抓取工具之数据预处理

提取的数据还不能直接拿来用？文件还没有被下载？格式等都还不符合要求？别着急，网页抓取工具火车采集器自有应对方案——数据处理。
图片1.png
网页抓取工具的数据处理功能包括三个部分，分别是内容处理、文件下载、内容过滤。下面依次给大家介绍：
1、内容处理：对从内容页面提取的数据进行替换、标签过滤、分词等进一步处理，我们可以同时添加多个操作，但这里需要注意的是，有多个操作时是按照从上到下的顺序来执行，也就是说，上个步骤的结果会作为下个步骤的参数。
下面来逐个介绍一下：
①提取内容为空：如果通过前面的规则无法准确提取或提取到的内容为空，则选择此项，此项应用后会使用正则匹配从原始页面中再次提取一次。
②内容替换/排除：将采集到的内容进行字符串替换，如需排除，则替换为空字符串即可，功能很灵活。如下图，可直接对内容进行替换，也可对字符串进行参数替换等（区别于工具栏中的同义词替换）。
③html标签过滤：过滤指定html标签，比如④字符截取：通过开始和结束字符串对内容进行截取。适用于对已提取内容的截取调整。
⑤纯正则替换：如果一些内容（比如单一出现的文字）无法通过通用的内容替换来操作，那么则需要通过强大的正则表达式进行复杂的替换。
如“火爆的美式餐厅都在这里”，我们将其替换为“美式餐厅”，正则表达式如下：
图片2.png
⑥数据转换：包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化，共计四项处理。
⑦智能提取：包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码。
⑧高级功能：包括自动摘要、自动分词、自动分类、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换，统计标签字符串长度等一系列功能。
⑨补全单网址：将当前内容作为一个网址进行补全。
2、文件下载：可以自动探测并下载文件，可设置下载路径和文件名样式。
注意：文件下载中所指下载图片是源代码里有标准样式标签的图片地址。
比如是一个直接的图片地址 http://www.locoy.com/logo.gif ,或者不规则的图片源码，采集器将会视为文件下载。
①将相对地址补全为绝对地址：勾选后会把标签采集到的相对地址补全为绝对地址。
②下载图片：勾选后源代码里的含标准样式的代码图片将被下载。
③探测文件真实地址但不下载：有时候采集到的是附件下载地址，而非真实的下载地址，点击后会有跳转。这种情况下勾选此项会将真实地址采集出来，但是只是得到下载地址并不下载。
④探测文件并下载：勾选后可以把采集到的任何格式的文件附件下载下来。
3、内容过滤：对于一些不符合条件的记录，可以通过设置内容过滤来删除或标记为未采。内容过滤有以下几个处理方法：
①内容不得包含和内容必须包含：可以设置多个词，支持选择所有条件都必须满足或满足其中一个条件即可。
②采集结果不得为空：该功能可以让某个字段不出现空内容。
③采集结果不得重复：该功能可以让某个字段不出现重复内容。设置此项前请确保没有采集过数据，或者需先清空采集数据。
④当内容长度小于(大于，等于，不等于)N时过滤：一个符号或一个字母或一个数字或一个汉字都计作一个。
注意：对于满足上述四条中的任何一条或者多条的情况下，可以在采集器的其他设置功能里设置直接删除此条记录，或把此条记录标记为未采集下次运行任务时会再次采集。
网页抓取工具火车采集器中配备一系列数据处理的好处是，当我们需要进行的只是一个很小的操作时，不需要再去写插件，去生成和编译，而是通过一步点击就可以将数据处理成我们需要的样子了。

时间： 2024-10-31 13:44:27

网页抓取工具之数据预处理的相关文章

善用网页抓取工具，数据轻松收入囊中

数据已走进各行各业并得到了广泛应用,伴随着应用而来的则是对数据的获取和准确挖掘.我们可应用的数据多来自内部资源库以及外部载体,内部数据整合即用,而外部数据却需要先行获取.外部数据的最大载体就是互联网,网页中每天难以数计的增量数据里,就包含着许多对我们有利用价值的信息. 如何最高效地从海量信息里获取数据呢?网页抓取工具火车采集器有高招,以自动化的智能工具代替人工的数据收集,当然更高效也更准确. 一.数据抓取的通用性作为通用的网页抓取工具,火车采集器基于源代码的操作原理让可抓取的网页类型达到99%

初学指南| 用Python进行网页抓取

引言从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

httpwebrequest网页抓取数据乱码

问题描述 httpwebrequest网页抓取数据乱码 protected void Page_Load(object sender, EventArgs e) { string url = "http://www.veryzhun.com/planenumber.html"; string strall = HttpGet(url); //string srr1 = GetHtmlFromGet(url,Encoding.GetEncoding("gb2312")

用TinySpider进行网页抓取实例

本例中用到的maven坐标变化如下: ? 1 2 3 4 5 <dependency> <groupId>org.tinygroup</groupId> <artifactId>org.tinygroup.spider</artifactId> <version>0.1.0-SNAPSHOT</version> </dependency> 在百度中搜索笑话,看到这么一个网站:http://www.jokeji.

几种PHP实现网页抓取的程序代码

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单. 一.Ganon 项目地址: http://code.google.com/p/ganon/ 文档: http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值是focus的div元素,并且输出class值 <?php include 'gan

构建一个高性能的网页抓取器，互联网营销

互联网的发展,使人类提前进入了信息爆炸的年代,在浩瀚无边的信息海洋里,如何快速.准确找到对自己有用的信息,就成了一个很有价值的研究课题,于是,搜索引擎应运而生.现在,国内外大大小小的搜索引擎有很多,搜搜也是这搜索引擎大军中的一员悍将.笔者有幸参与了搜搜研发过程中的一些工作,在这里写一些自己的理解与看法,权当是抛砖引玉,希望能够得到业内前辈们的一些指点. 对于网页搜索引擎来说,它的基本处理流程,通常可以分为三个步骤:一是对海量互联网网页的抓取,也称下载:二是对已下载的网页进行预处理,包括抽取正

《用Python写网络爬虫》——2.2 三种网页抓取方法

2.2 三种网页抓取方法现在我们已经了解了该网页的结构,下面将要介绍三种抓取其中数据的方法.首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块. 2.2.1 正则表达式如果你对正则表达式还不熟悉,或是需要一些提示时,可以查阅https://docs.python.org/2/howto/regex.html 获得完整介绍. 当我们使用正则表达式抓取面积数据时,首先需要尝试匹配元素中的内容,如下所示. >>> import re >>&

使用phantomjs进行网页抓取的实现代码_javascript技巧

phantomjs因为是无头浏览器可以跑js,所以同样可以跑dom节点,用来进行网页抓取是再好不过了. 比如我们要批量抓取网页 "历史上的今天" 的内容.网站对dom结构的观察发现,我们只需要取到 .list li a的title值即可.因此我们利用高级选择器构建dom片段 var d= '' var c = document.querySelectorAll('.list li a') var l = c.length; for(var i =0;i<l;i++){ d=d+

Jsoup 抓取页面的数据实例详解

Jsoup 抓取页面的数据需要使用的是jsoup-1.7.3.jar包如果需要看文档我下载请借一步到官网:http://jsoup.org/ 这里贴一下我用到的 Java工程的测试代码 package com.javen.Jsoup; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.