问题描述
使用的nutch1.2+tomcat6。用nutch爬163、sina没问题,爬完了到他那个war程序里面搜索都能搜到爬出来的数据。但是,因为需求,自己的一个项目需要动态的生成一些html(java中通过流输出,<html><head><title><body>以防万一都输出了),而且html也是有很多。然后把这些html的链接集中方法到一个index.html中,然后让爬虫去爬index.html。而且这些生成的html用浏览器打开也可以正常查看。日志也是从那里滚啊滚,看着挺正常。但是搜索的时候就么得搜索不到了,只显示“第0-0项(共有0项查询结果):”。后台当然就是:2014-07-1116:37:57,978INFONutchBean-queryrequestfrom0:0:0:0:0:0:0:12014-07-1116:37:58,047INFONutchBean-query:汽车2014-07-1116:37:58,047INFONutchBean-lang:2014-07-1116:37:58,118INFONutchBean-searchingfor20rawhits2014-07-1116:37:58,188INFONutchBean-totalhits:0又试了试其它网络上的页面都可以。于是问题应该就是出在自己的这些网页中。难道nutch不能爬本地网页?难道nutch抓数据还按照什么标准,而本地网页缺少一些标签?求老师、前辈指教,谢谢!如果您有什么好方法,以可以戳进这里回答,csdn分不多,以下是百度的链接,200悬赏。谢谢!
解决方案
时间: 2024-09-13 14:16:03