高分求教url分析 分层处理解决方案

问题描述

想做个爬虫蜘蛛,大家觉的分层URL怎么处理比较好亚?首先分析第一个页面里的URL,将这些URL保存,然后接着分析保存的这些URL...以此类推。。。大家给个解决方案,是各层的URL都使用数组保存在内存里还是保存在数据库里比较好?

解决方案

解决方案二:
该回复于2008-05-27 13:20:49被版主删除
解决方案三:
要保留数据就存数据库否则就放内存不用了就丢掉
解决方案四:
如果数据量大保存到数据库比较好
解决方案五:
因为你需要保存的是一个树状结构得url所以可以选择以xml得形式保存或者保存在数据库并定义好他们得上下级关系
解决方案六:
具体如何操作?Gethtml()获取HTML代码Gethref()获取链接保存在内存,各个层的URL怎么保存?保存在String[]中?
解决方案七:
该回复于2008-05-27 18:01:57被版主删除
解决方案八:
直接Gethref(url);这样就得到这个url里的所有链接第一张页面string[]a=Gethref(url);第二层:for(inti=0;i<a.count;i++){string[]b=Gefhref(a[i].Tostring());//这里从第二层开始如何保存?如果有数组一维数组好像不行}

时间: 2024-09-21 11:30:35

高分求教url分析 分层处理解决方案的相关文章

Tomcat自动关闭问题,求教如何分析错误日志!!!

问题描述 tomcat运行一段时间后会自动关闭,并产生错误日志,怀疑是客户端访问同时读取大字段造成的问题,但是看不懂错误日志文档,求教如何分析问题,错误日志见附件 问题补充:aronlulu 写道 解决方案 从日志看是调本地库的时候引起jvm崩溃的.本地库是spring jdbc调的.从你的heap信息看,perm区已经满了.你设置了-XX:MaxPermSize=512m,但是初始时只分了64M你改成-XX:PermSize=512m -XX:MaxPermSize=512m试试吧.另外看你们

高分求教什么是链表,谢谢各位!

问题描述 我想请教什么是链表,我有一些编程的基础,我了解数组,但是链表这个东东我实在是搞不懂,能否请各位给举个例子,或用一些代码来实现,在下高分求教,多谢~~~顺便问下:我今天刚刚注册,是朋友推荐的.怎么我在发帖时的"帖子问题点数"这一栏只能给"0"分呢?我明明有200可用分呀. 解决方案 解决方案二:链表是数据结构讲的东西,表示数据的存储方式,建议找找数据结构相关的书籍.解决方案三:楼主,学过数据结构吗?呵呵,看下吧解决方案四:是一种物理存储单元上非连续.非顺序的

url传递中文的解决方案

解决|中文 url传递中文的解决方案 1.设置web.config文件.(我不喜欢设置成这样) <system.web> ...... <globalization requestEncoding="gb2312" responseEncoding="gb2312" culture="zh-CN" fileEncoding="gb2312" /> ...... </system.web> 2

分析数据的算法问题-求教一个分析数据的算法

问题描述 求教一个分析数据的算法 销售数据若干行在excel sheet中,我要把相加和为0的分为一组,其余的放在另外一组. 例如,以下sheet中,1,2,8,12应该放进和为0相互消掉的那一组.5和13行和为0,也应该在这一组.余下的都消不掉,放在第二组. 真实的报表数据特多,算法叫我头疼,求教大神给我出出主意吧!什么算法比较好,谢谢!!!跪谢!!! 8000 -2000 1000 2000 -3000 4000 -300 -2000 7000 6000 5000 -4000 3000 14

Teradata天睿公司在2017年Gartner分析型数据管理解决方案关键能力报告中获最高

<企业网D1Net>3月31日(北京)近日,全球领先的数据分析解决方案供应商Teradata天睿公司宣布,在Gartner公司新发布的<分析型数据管理解决方案关键能力报告>(Critical Capabilities for Data Management Solutions for Analytics)四大数据管理使用案例(传统.操作.逻辑和上下文无关)评估中均获最高产品得分.该报告于2017年3月16日发布,由分析师Rick Greenwald.Donald Feinberg和

求教URL转码问题

问题描述 在地址栏上有个参数是?code=uitbf9qnRr9mLxAtFJJ9cj1pLJ5OtDTJO%2FECvsEkJPqTL8P6EvbPSR5ZxfnsBbk3F06XwOgDikhxcbLycbjW9h7uhaoULgyes3AMkiRA4F2Fhe5TrpbLcL2CFshRlx2%2FPaWWRq在后台获取这个参数变成了去掉%号的格式uitbf9qnRr9mLxAtFJJ9cj1pLJ5OtDTJO/ECvsEkJPqTL8P6EvbPSR5ZxfnsBbk3F06XwOgD

利用a标签自动解析URL分析网址实例_javascript技巧

对于window.location,我们比较熟悉,它有protocol,hostname,host,port,search,hash,href,pathname等属性,a标签也和window.location一样,也有这样属性,这样可以方便我们分析网址,闲话少说,上代码. function parseURL(url) { var a = document.createElement('a'); a.href = url; return { source: url, protocol: a.pro

IOS URL中文乱码问题解决方案_IOS

IOS 解决URL中文乱码问题解决 在做一个HTTPS连接时, 要客户端合成一段HTTPS地址 如果地址含中文的话程序会crash, 检查发现原来是中文没有转码的原因 在NSString库里面找到了下面两个方法 - (NSString *)stringByAddingPercentEscapesUsingEncoding:(NSStringEncoding)encoding - (NSString *)stringByReplacingPercentEscapesUsingEncoding:(N

使用UrlRewriter进行Url重写的完整解决方案[转]

Setp 1: 下载UrlRewriter => http://urlrewriter.net/ Setp 2: 将其添加到Web项目的Bin目录下 Setp 3: 配置:打开web.config,在configSecions中添加sectionHandler: <section name="rewriter" requirePermission="false" type="Intelligencia.UrlRewriter.Configura