传统的多线程蜘蛛程序虽然采集速度快, 但是明明不需要所有内容, 却胡子眉毛一把抓, 将整个网页都下载下来当作一个文本进行处理. 由于网页内容参差不齐, 所以抓取质量常常无法保证; 在面对由ajax等动态技术呈现的信息时更是束手无策. 自从所见即所抓技术发明之后, 这一切便得到了改观. Spider Studio 以所见即所抓为核心, 以脚本的方式来完成抓取, 并且提供了大量辅助功能.
功能特点
1. C# 脚本化抓取
比如下面这段代码会打开本页并将产品简介提取出来显示在对话框中.
开发环境-spiderstudio">
更多脚本使用信息请查看 所见即所抓脚本指南
2. 可视化定位
用鼠标在页面选择需要的内容, 开发环境将自动计算对应元素的JQuery表达式, 方便我们对其进行查看测试或者运用到脚本中.
查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/
时间: 2024-09-13 13:42:42