我们的文件有时候不在本地,可能是在网络上,这时候我们该如何对其进行索引呢?当然你可以先通过爬虫把它抓取下来保存到本地硬盘,然后通过上篇博客介绍的方式对其进行索引,其实Solr内置了URLDataSource,支持直接获取远程资源进行索引的,下面就详细介绍该如何配置实现。废话不多说,我直接贴相应的配置文件:
solrconfig.xml配置文件基本没什么变化,依赖的jar请从上篇博客里获取,
关键点是dataSource必须是urlDataSource类型才能加载远程资源文件,url表示一个远程资源文件的访问URL。
最后你需要在schema.xml配置文件中定义一个text域,如图。就这样,配置文件就搞定了,重启你的tomcat开始测试:
OK,打完收工!惯例,solr配置文件我会打包上传到底下附件里供你们参考,依赖的相关jar包请参见上一篇博客,那里面有提供下载地址。
如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,
或者加裙
一起交流学习!
转载:http://iamyida.iteye.com/blog/2214920
时间: 2024-10-01 20:12:21