问题描述
想做个爬虫蜘蛛,大家觉的分层URL怎么处理比较好亚?首先分析第一个页面里的URL,将这些URL保存,然后接着分析保存的这些URL...以此类推。。。大家给个解决方案,是各层的URL都使用数组保存在内存里还是保存在数据库里比较好?
解决方案
解决方案二:
该回复于2008-05-27 13:20:49被版主删除
解决方案三:
要保留数据就存数据库否则就放内存不用了就丢掉
解决方案四:
如果数据量大保存到数据库比较好
解决方案五:
因为你需要保存的是一个树状结构得url所以可以选择以xml得形式保存或者保存在数据库并定义好他们得上下级关系
解决方案六:
具体如何操作?Gethtml()获取HTML代码Gethref()获取链接保存在内存,各个层的URL怎么保存?保存在String[]中?
解决方案七:
该回复于2008-05-27 18:01:57被版主删除
解决方案八:
直接Gethref(url);这样就得到这个url里的所有链接第一张页面string[]a=Gethref(url);第二层:for(inti=0;i<a.count;i++){string[]b=Gefhref(a[i].Tostring());//这里从第二层开始如何保存?如果有数组一维数组好像不行}
时间: 2024-09-21 11:30:35