问题描述
- nutch TopN 50万 depth 10 获取到6万多数据
- 我用nutch1.9搜索阿里巴巴的网站,使用的是bin/crawl 脚本执行的,topN设置的50万,爬行深度设置的10,url过滤只允许阿里巴巴的网站,但是实际搜出来的结果却只有6万多,又人知道大概是什么原因吗困扰了好几天了。。。。。求教
解决方案
网站发现你爬虫,ban了你的请求
解决方案二:
这个没很好办法,模拟浏览器,多换IP,降低频率。
时间: 2024-12-28 03:12:16
网站发现你爬虫,ban了你的请求
解决方案二:
这个没很好办法,模拟浏览器,多换IP,降低频率。