谁有爬虫程序开发经验?

问题描述

如果我要做这样一个搜索程序比如:名称addresstellink武汉火车站湖北省武汉市....123456http://www.wh.cn只取这几个名称显示成一个列表.与之相关的20条能过googlebaidu?问题怎么取这几个字段?

解决方案

解决方案二:
up
解决方案三:
名称addresstellink武汉火车站湖北省武汉市....123456http://www.wh.cn只搜与这几个名称相关的网页并取出来显示成一个列表
解决方案四:
要自动分析结果,取出正确答案,那基本没戏如果只是取得GOOGLE或百度的搜索结果,基本就是写几个合适的正则就能搞定了
解决方案五:
1:蜘蛛程序仅仅只是收集网页,只是一个downloader;2:对文本进行分析的是SE的分析引擎,其中包括了HTML格式化等语言处理程序,分析后形成索引;3:搜索则是搜索引擎SE来做,通过对搜索结果进行评分决定相关性排序的顺序,显示给用户;泛化意义上的搜索引擎是这几个组件的综合体有些蜘蛛喜欢在采集同时进行分析,但纯粹意义上的蜘蛛只做很简单的工作的LZ你想要的是一整套SE,要采集然后分析的如果只是对GOOGLE、BAIDU进行聚合,那么搞几个正则,分析GOOGLE、BAIDU的返回内容就可以了
解决方案六:
webrequest等获取数据,再用正则获取相关值

时间: 2024-10-24 21:05:54

谁有爬虫程序开发经验?的相关文章

c c++-求用c编写的一个简单的爬虫程序,高手赐教,不胜感激

问题描述 求用c编写的一个简单的爬虫程序,高手赐教,不胜感激 本人是初学者,要编写一爬虫程序,抓取60多万个网页上的信息,实在是无从下手,请高手给一个能看得懂的简单的爬虫程序学习用,多谢 解决方案 我也要写一个C爬虫,不过遇到了一些问题,比如58这样的网站,用getaddrinfo返回的ip无法连接,已经耽误了我好几天了,别的问题到还没遇到

蜘蛛/爬虫程序的多线程控制(C#语言)

程序|多线程|控制 在<爬虫/蜘蛛程序的制作(C#语言)>一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能.只是它存在一个效率问题,下载速度可能很慢.这是两方面的原因造成的: 1.       分析和下载不能同步进行.在<爬虫/蜘蛛程序的制作(C#语言)>中已经介绍了爬虫程序的两个步骤:分析和下载.在单线程的程序中,两者是无法同时进行的.也就是说,分析时会造成网络空闲,分析的时间越长,下载的效率越低.反之也是一样,下载时无法同时进行分析,只有停下下载后才能进行

C#实现蜘蛛/爬虫程序的多线程控制

在<爬虫/蜘蛛程序的制作(C#语言)>一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能.只是它存在一个效率问题,下载速度可能很慢.这是两方面的原因造成的: 1.分析和下载不能同步进行.在<爬虫/蜘蛛程序的制作(C#语言)>中已经介绍了爬虫程序的两个步骤:分析和下载.在单线程的程序中,两者是无法同时进行的.也就是说,分析时会造成网络空闲,分析的时间越长,下载的效率越低.反之也是一样,下载时无法同时进行分析,只有停下下载后才能进行下一步的分析.问题浮出水面,我想大

Python 爬虫程序 PySpider

问题描述 PySipder 是一个 Python 爬虫程序演示地址:**://demo.pyspider.org/使用 Python 编写脚本,提供强大的 APIPython 2&3强大的 WebUI 和脚本编辑器.任务监控和项目**和结果查看支持 JavaScript 页面后端系统支持:MySQL, MongoDB, SQLite, Postgresql支持任务优先级.重试.定期抓取等分布式架构示例代码:from pyspider.libs.base_handler import * cl**

android-二层爬虫程序数据获取问题?

问题描述 二层爬虫程序数据获取问题? 比如我定义了一个实体类,如下MessageItem{string title:string image Url;--}省略号为get和set方法. 现在我用开启了一个线程请求网页数据,可是这个网页只有标题,和内容链接.我在这个线程返回的数据中setTitle()的值,可是面对后面链接我又得开一个线程来获取图片链接,可是当我在第二个线程中这样做的时候,数据已经返回了,即使获得了图片链接,也没有存储到我在第一个线程中创建的实体类中.我在第一个线程中执行玩后调用第

用C#实现蜘蛛/爬虫程序的多线程控制

在<爬虫/蜘蛛程序的制作(C#语言)>一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能.只是它存在一个效率问题,下载速度可能很慢.这是两方面的原因造成的: 1.分析和下载不能同步进行.在<爬虫/蜘蛛程序的制作(C#语言)>中已经介绍了爬虫程序的两个步骤:分析和下载.在单线程的程序中,两者是无法同时进行的.也就是说,分析时会造成网络空闲,分析的时间越长,下载的效率越低.反之也是一样,下载时无法同时进行分析,只有停下下载后才能进行下一步的分析.问题浮出水面,我想大

爬虫程序绕过站点的几个因素

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 我们的网站再好,爬虫程序找不到所做的也都是无用功.很多网站想法设法吸引蜘蛛,有时却忽略了一些站内细节问题.搜索引擎借助搜索引擎蜘蛛在互联网中的链接中爬行抓取我们的站点,然后根据一定的算法与规则对我们的站点进行排名.现在很多站点因为结构模式与布局的混乱导致经常与蜘蛛失之交臂,失去大量的机遇.蜘蛛不光顾站点是的因素非常多,下面总结了几个常见的主要

商品网站信息-求一个可用的爬虫程序源码

问题描述 求一个可用的爬虫程序源码 爬取商品网站信息 http://www.soukai.com 有的发我邮箱,感激不尽 728735816@qq.com 解决方案 写完了,挺简单的,写了一个下午 解决方案二: 最好是java 或者python的

招南京 .net 程序员!要求有项目开发经验!有应用程序开发经验佳!

问题描述 招南京地区.net程序员!要求有项目开发经验!有应用程序开发经验佳!详细情况请加qq:411545730面议: