【java相关】关于nutch搜索引擎的使用问题（服务器、apache、nutch）。谢谢！

问题描述

使用的nutch1.2+tomcat6。用nutch爬163、sina没问题，爬完了到他那个war程序里面搜索都能搜到爬出来的数据。但是，因为需求，自己的一个项目需要动态的生成一些html（java中通过流输出，<html><head><title><body>以防万一都输出了），而且html也是有很多。然后把这些html的链接集中方法到一个index.html中，然后让爬虫去爬index.html。而且这些生成的html用浏览器打开也可以正常查看。日志也是从那里滚啊滚，看着挺正常。但是搜索的时候就么得搜索不到了，只显示“第0-0项(共有0项查询结果):”。后台当然就是：2014-07-1116:37:57,978INFONutchBean-queryrequestfrom0:0:0:0:0:0:0:12014-07-1116:37:58,047INFONutchBean-query:汽车2014-07-1116:37:58,047INFONutchBean-lang:2014-07-1116:37:58,118INFONutchBean-searchingfor20rawhits2014-07-1116:37:58,188INFONutchBean-totalhits:0又试了试其它网络上的页面都可以。于是问题应该就是出在自己的这些网页中。难道nutch不能爬本地网页？难道nutch抓数据还按照什么标准，而本地网页缺少一些标签？求老师、前辈指教，谢谢！如果您有什么好方法，以可以戳进这里回答，csdn分不多，以下是百度的链接，200悬赏。谢谢！

解决方案

时间： 2024-09-13 14:16:03

【java相关】关于nutch搜索引擎的使用问题（服务器、apache、nutch）。谢谢！的相关文章

Apache Nutch v1.3发布开源Java实现的搜索引擎

Apache Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Apache Nutch 1.3发行说明: * NUTCH-995 Generate POM file using the Ivy makepom task (mattmann, jnioche, Gabriele Kahlout) * NUTCH-1003 task 'package' does not reflect the new organisation

求助sql和java相关的问题

问题描述求助sql和java相关的问题我需要查询add_userid是不是最后一条,已知条件就是一个userid,add_userid是int类型,userid是varchar, 有什么方法么能有java的方法最好,当然写出sql查询方法也可以解决方案如果 add_userid是唯一的可以 select add_userid from 表名 where id =(select max(id) from 表名 ) 将得到的结果与你的add_userid比较是否相等来决定是否最后一条解决

我是新人，请问论坛内是否有JAVA相关的视频教程以及书籍可以下载？

问题描述我是新人,请问论坛内是否有JAVA相关的视频教程以及书籍可以下载?给两个下载链接? 解决方案解决方案二:百度一下有很多的尚学堂解决方案三:传智播客的还不错

关于java问题-怎么实现邮箱的注册机，用java相关技术

问题描述怎么实现邮箱的注册机,用java相关技术可以程序自动填充表单并自动提交给服务器,验证码那个可以不要,,.,,.,,,,djdjdjjdjdjdjd 解决方案应该是模拟http请求 , 解决方案二: HTTP CLIENT在网上找一找吧

感谢大侠们给点java相关的书籍

问题描述很感谢各位大侠给点java相关的书籍参考下解决方案解决方案二:21天精通java入门级:另外多看java的视频教程:关键是多动手多联系,有问题多问.深入点的话,看Java核心技术卷1.卷2:ThinkingInjava解决方案三:Java面向对象编程指南corejava很多解决方案四:按照层次来:入门:Java核心技术卷III跟着敲代码,最好搞一两个应用自己实现一下,例如QQ等然后上网搞个视频从头到尾搞定跟着敲进阶:Java核心技术卷III建议多看两遍,每次都感觉进步Thinkin

lucene+nutch搜索引擎开发

问题描述有没有关于lucene+nutch搜索引擎开发这方面的书籍? 解决方案解决方案二:只了解lucene,不熟悉nutch,Google

如何在Windows Azure中使用Java相关技术

我们刚刚发布了一个新教程和示例代码,以阐述如何在Windows Azure中使用 Java 相关技术.在该指南中,我们提供了分步教程,说明如何将 Java Spring Framework 应用程序(PetClinic 示例应用程序)迁移到 Windows Azure 云.此文档附带的代码同样也发布在 GitHub 中.我们鼓励 Java 开发人员下载并探索此新示例和教程. Windows Azure 是一个开放的云平台,它支持各种编程语言和框架,包括 Microsoft .NET.Java.N

Julien Nioche谈Apache Nutch 2的特性及产品路线图

原文地址: http://www.infoq.com/cn/articles/nioche-apache-nutch2 开源的Web搜索框架Apache Nutch的2.1版本已于2012年10月5日发布,该版本的新特性包括:支持一些改进属性,用于更好地配置Solr:更新到各个Gora依赖:可以选择构建弹性搜索中的索引.Nutch既可以运行在单台服务器上,也可以用作大规模抓取平台运行在Hadoop集群上. Nutch框架的2.0版本在经历了两年开发之后,已于今年7月发布,该版本以Apache G

java实现将文件上传到ftp服务器的方法_java

本文实例讲述了java实现将文件上传到ftp服务器的方法.分享给大家供大家参考,具体如下: 工具类: package com.fz.common.util; import java.io.DataInputStream; import java.io.DataOutputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; imp

猜你喜欢

绘制矢量路径图形让像素对齐网格的技巧

文章描述:Photoshop CS6 Beta版(下文简称PS CS6)发布公测,有着多项惊艳的新特性,工作中整天和像素打交道,感触比较深的特性就是PS CS6支持矢量对象绘制.变换时像素自动对齐网格 ...

WebService Behavior 学习心得

web|心得 XML Web services 行为使客户端脚本能够调用由 Microsoft .NET XML Web services 或其他支持简单对象访问协议 (SOAP) 的 Web 服务器 ...

网络存储技术初探

1 IP技术介绍 IP存储涉及到了一系列的技术,它可以使块级存储的数据存基于IP的网路中传输,这里面有两个技术需要阐明:IP技术的利用和块级存储.网络中块级存储的数据传输不是新技术,今天的存储区域网络 ...

jsp页面中插入css样式的三种方法总结

本篇文章主要是对jsp页面中插入css样式的三种方法进行了总结介绍,需要的朋友可以过来参考下,希望对大家有所帮助 1. 外部样式当样式需要应用于很多页面时,外部样式表将是理想的选择.在使用外部 ...

XP系统任务管理器无法运行怎么办

XP系统任务管理器打不开经常使用电脑的用户应该都知道任务管理器,通过组合键Ctrl+Alt+Del,我们可以打开任务管理器,任务管理器提供了计算机性能的信息,并显示了计算机上所运行的程序和进程的详细信 ...

linux vps面板kloxo 创建站点及自动备份

kloxo 是一款linux vps服务器非常优秀国外免费面板,国内用户保有量也非常大.汉化也很到位了.之前笔者以介绍了一键安装包的使用非常方便(一键安装kloxo).尽管如此单对于初次使用的朋友 ...

B2C网站天猫和京东商城的用户体验对比

之前我在<转战B2C网站开发与建设>一文中提到过用户体验,本文主要阐述一下我对用户体验的理解,和在开发网站的同时应该注意到用户体验的哪些方面. 用户体验,那到底什么是用户体验呢?不同的人对 ...

360安全卫士如何修改默认浏览器

如果大家不习惯使用360的浏览器的话,可以在360安全卫士中重新设置自己需要的浏览器,那怎么修改默认浏览器呢,下面小编就来给大家详细的解释一下,有兴趣的小伙伴赶紧戳进来吧,小编的建议应该对你会有所 ...

JavaScript返回网页中超链接数量的方法

下面的JS代码通过document.links获取网页中的所有超级链接,从而获得超链接的数量 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 <!DOCTY ...

《细说 QML》

关于命名 "中文是最叼的"...原本想给本系列也起一个很"叼"的名字,无奈笔者语言匮乏,绞尽脑汁才想出一个还算凑合的名字 - <细说 QML>,关于 ...

git checkout 命令详解(转)

在日常的git操作中,git checkout--检出,是我们的常用命令.最为常用的两种情形是创建分支和切换分支. 在下面的命令中,使用了一些简写,在这里说明一下: git st # git stat ...

《Java 7程序设计入门经典》一1.1　计算基础

1.1 计算基础考虑到你正在修一门编程课程,你可能已经对计算科学的基础知识有了一定的了解.但是,不是所有人都有同样的知识,或某些知识可能是不准确的.为此,在介绍Java语言之前,先介绍计算科学中的一 ...

C安全编码--数组

建议和规则建议: 理解数组的工作方式获取数组的长度时不要对指针应用sizeof操作符显示地指定数组的边界,即使它已经由初始化值列表隐式地指定规则: 保证数组索引位于合法的范围内在所有源文件中 ...

使用Telnet命令来管理思科路由器

我们常常使用的思科路由器要如何管理思科路由器呢?本文主要从Telnet命令远程管理,虚拟终端协议技巧,主机名登录等方面向大家详细的介绍.众所周知,Telnet是一个远程登录的网络协议. 那么在思科路由 ...

云知声梁家恩:我眼中的语音市场

这是一场创业者帮助创业者的比赛,而对手是时间和市场. 昨天,巴人有幸拜访了云知声的CEO梁家恩,这个采访曲折约了大概半个月,当中也听说了这家公司融资了1亿人民币. 今年年初,我第一次来到这家公司,当时 ...

ASP.NET报错——Master Page frameworkName: Value cannot be null error

解决方法--新建一个空白网站,把原来文件拷贝进来. 原帖地址:http://hi.baidu.com/32ex/blog/item/3a93d5adff0959294a36d60a.html ...

《Python数据科学实践指南》——2.1节应当掌握的基础知识

2.1 应当掌握的基础知识本节会介绍一些学习Python前应当掌握的基础知识,这一部分内容在所有的编程语言学习中基本上都是类似的,Python当然也遵守这些通用的规则,熟悉这些内容的读者可以跳过这一 ...

java.lang.Classnotfoundexception: Didn&amp;#x27;t find class&amp;quot;.provider&amp;quot; on path: Dexp...

问题描述解决方案解决方案二:自己去认真仔细去查看一下自己的路径.

MVC4制作网站教程第四章部分栏目功能实现代码_实用技巧

序一.用户二.用户组三.栏目 3.1添加栏目 3.2浏览栏目 3.3更新栏目 3.4删除栏目 3.5前台栏目浏览 -- 栏目模型: 模型应有一下字段:栏目名称,父栏目id,栏目类型,内容模型,栏 ...

Zalora愚人节上演模特变装，男性模特展示女裙力推新营销

4月4日消息,东南亚时尚电商Zalora在4月1日愚人节那天上演了给模特变装的戏码. 在愚人节当天,Zalora给它的用户发送了新的裙装系列的推送邮件,在这封邮件中Zalora采取了用男性模特展示女裙 ...

java swing中drawline方法，界面最小化之后线消失的问题

问题描述 java swing中drawline方法,界面最小化之后线消失的问题我通过Graphics g=getGraphics(); g.setColor(Color.RED); g.drawL ...

求助，java web控件报错

问题描述 win8.1jdk8jre7打开fc交换机配置页面就报这个错.求大侠指点解决方案解决方案二:各位大神求解答啊

Aereo：用iPad也能免费收看电视直播

Aereo,原名为Bamboom,是一项为iPad等连网设备提供免费电视节目的服务,大名鼎鼎的Barry Diller是其投资人.为平板电脑提供免费的电视节目一直是很多创业公司跃跃欲试而又踌躇不前的项 ...

浅析常见外链建设的几点误区

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅浅析常见外链建设的几点误区众所周 ...

ilium ef lue-Xilium.CefGlue如何添加processchanged事件

问题描述 Xilium.CefGlue如何添加processchanged事件如题,想添加像webbrowser的processchanged事件

javascript-关于js 日期的代码为什么第二个结果是2041

问题描述关于js 日期的代码为什么第二个结果是2041 ① var now=new Date(); var year=now.getYear()+1900; var month=now.getMo ...

关于gridview的数据源绑定sqldatasource的selectcommand变化问题

问题描述 gridview的绑定sqldatasource,sqldatasource里有selectcommand的给定值(.aspx页面上的),然后我有一个下拉列表框,里面为selectcomma ...

将异步处理成同步的操作

问题描述情况是这样的:现在手机用充值卡充值将充值请求发送到后台后台发起充值请求,充值完成后,我们要给一个地址给第三方来通知充值结果(大部分的充值都是异步通知包括银行的)但是这个时候我们不能把开始手机 ...

八步拿下数据科学，攻克 “21世纪最性感的工作”

在数据科学(Data Science)领域,除了"什么是数据科学"这个问题以外,大家最感兴趣的问题就是"如何学习数据科学?"其实这个问题除了新手会问,有时候领域 ...

ChinaPay ReturnURL

问题描述在ChinaPay中退款状态接受URL,ChinaPay并没有访问我的页面,我用的是退款测试地址,但接受应答的页面在服务器上,貌似ChinaPay并没有访问我的页面,有人遇到过这个问题吗? ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.019 s.