【java相关】关于nutch搜索引擎的使用问题(服务器、apache、nutch)。谢谢!

问题描述

使用的nutch1.2+tomcat6。用nutch爬163、sina没问题,爬完了到他那个war程序里面搜索都能搜到爬出来的数据。但是,因为需求,自己的一个项目需要动态的生成一些html(java中通过流输出,<html><head><title><body>以防万一都输出了),而且html也是有很多。然后把这些html的链接集中方法到一个index.html中,然后让爬虫去爬index.html。而且这些生成的html用浏览器打开也可以正常查看。日志也是从那里滚啊滚,看着挺正常。但是搜索的时候就么得搜索不到了,只显示“第0-0项(共有0项查询结果):”。后台当然就是:2014-07-1116:37:57,978INFONutchBean-queryrequestfrom0:0:0:0:0:0:0:12014-07-1116:37:58,047INFONutchBean-query:汽车2014-07-1116:37:58,047INFONutchBean-lang:2014-07-1116:37:58,118INFONutchBean-searchingfor20rawhits2014-07-1116:37:58,188INFONutchBean-totalhits:0又试了试其它网络上的页面都可以。于是问题应该就是出在自己的这些网页中。难道nutch不能爬本地网页?难道nutch抓数据还按照什么标准,而本地网页缺少一些标签?求老师、前辈指教,谢谢!如果您有什么好方法,以可以戳进这里回答,csdn分不多,以下是百度的链接,200悬赏。谢谢!

解决方案

时间: 2024-09-13 14:16:03

【java相关】关于nutch搜索引擎的使用问题(服务器、apache、nutch)。谢谢!的相关文章

Apache Nutch v1.3发布 开源Java实现的搜索引擎

Apache Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Apache Nutch 1.3发行说明: * NUTCH-995 Generate POM file using the Ivy makepom task (mattmann, jnioche, Gabriele Kahlout) * NUTCH-1003 task 'package' does not reflect the new organisation

求助sql和java相关的问题

问题描述 求助sql和java相关的问题 我需要查询add_userid是不是最后一条,已知条件就是一个userid,add_userid是int类型,userid是varchar, 有什么方法么 能有java的方法最好,当然写出sql查询方法也可以 解决方案 如果 add_userid是唯一的可以 select add_userid from 表名 where id =(select max(id) from 表名 ) 将得到的结果与你的add_userid比较是否相等来决定是否最后一条 解决

我是新人,请问论坛内是否有JAVA相关的视频教程以及书籍可以下载?

问题描述 我是新人,请问论坛内是否有JAVA相关的视频教程以及书籍可以下载?给两个下载链接? 解决方案 解决方案二:百度一下有很多的尚学堂解决方案三:传智播客的还不错

关于java问题-怎么实现邮箱的注册机,用java相关技术

问题描述 怎么实现邮箱的注册机,用java相关技术 可以程序自动填充表单并自动提交给服务器,验证码那个可以不要,,.,,.,,,,djdjdjjdjdjdjd 解决方案 应该是模拟http请求 , 解决方案二: HTTP CLIENT在网上找一找吧

感谢大侠们给点java相关的书籍

问题描述 很感谢各位大侠给点java相关的书籍参考下 解决方案 解决方案二:21天精通java入门级:另外多看java的视频教程:关键是多动手多联系,有问题多问.深入点的话,看Java核心技术卷1.卷2:ThinkingInjava解决方案三:Java面向对象编程指南corejava很多解决方案四:按照层次来:入门:Java核心技术卷III跟着敲代码,最好搞一两个应用自己实现一下,例如QQ等然后上网搞个视频从头到尾搞定跟着敲进阶:Java核心技术卷III建议多看两遍,每次都感觉进步Thinkin

lucene+nutch搜索引擎开发

问题描述 有没有关于lucene+nutch搜索引擎开发这方面的书籍? 解决方案 解决方案二:只了解lucene,不熟悉nutch,Google

如何在Windows Azure中使用Java相关技术

我们刚刚发布了一个新教程和示例代码,以阐述如何在Windows Azure中使用 Java 相关技术.在该指南中,我们提供了分步教程,说明如何将 Java Spring Framework 应用程序(PetClinic 示例应用程序)迁移到 Windows Azure 云.此文档附带的代码同样也发布在 GitHub 中.我们鼓励 Java 开发人员下载并探索此新示例和教程. Windows Azure 是一个开放的云平台,它支持各种编程语言和框架,包括 Microsoft .NET.Java.N

Julien Nioche谈Apache Nutch 2的特性及产品路线图

原文地址: http://www.infoq.com/cn/articles/nioche-apache-nutch2 开源的Web搜索框架Apache Nutch的2.1版本已于2012年10月5日发布,该版本的新特性包括:支持一些改进属性,用于更好地配置Solr:更新到各个Gora依赖:可以选择构建弹性搜索中的索引.Nutch既可以运行在单台服务器上,也可以用作大规模抓取平台运行在Hadoop集群上. Nutch框架的2.0版本在经历了两年开发之后,已于今年7月发布,该版本以Apache G

java实现将文件上传到ftp服务器的方法_java

本文实例讲述了java实现将文件上传到ftp服务器的方法.分享给大家供大家参考,具体如下: 工具类: package com.fz.common.util; import java.io.DataInputStream; import java.io.DataOutputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; imp