Nutch是什麼?
nutch是基於開放原始碼所開發的web search
安裝Nutch的環境?
nutch是由java與jsp構成,只要web server可執行以上環境即可
Nutch有何優勢?
對java有研究的人都知道Lucene,一個超強的全文檢索引擎,那麼Nutch就是基於Lucene所開發的搜尋引擎
以下這篇對於Nutch應用與流程圖介紹有詳盡的介紹:
Nutch应用 - 应用已有的开源搜索引擎
首先,需要準備以下工具:
javaVM:jdk1.5.x 注意....請下載JDK不要抓錯了阿XD
nutch:出到0.9嚕,抓新版的吧
tomcat:5.0 讓你可以跑JSP的環境,個人推薦測試環境可以使用懶人包xampp + tomcat
cygwin:模擬shell來run nutch
準備好以後...
網路上有太多介紹如何安裝的文章
我就不多敘述了,主要把安裝過程中遇到的重點心得提醒一下囉:)
你可以參考:
nutch在Windows上的安装 step by step
安裝Cygwin詳解
在安裝過程中
會讓人卡關髮指的地方,給大家參考參考囉
1)提到一開始要建立urls
其實就是在根目錄建立一個urls.txt的檔案
檔案內容輸入你要抓取的網址如:http://lucene.apache.org/nutch/
之後再使用
bin/nutch crawl urls -dir crawl -depth 3 -topN 50
抓取的時後就是改成
crawl urls.txt -dir
时间: 2024-12-30 19:09:22