如何向solr服务器提交大日志文件

问题描述

现在公司有个项目对日志文件进行全文检索，准备用solr完成。现在遇到一个问题，由于日志的文件比较大，一般10几兆，大的已经达到几百兆了。我们将日志的内容设置为content字段，类型为string，但是当我们将documnet提交到server的时候，就报OOM的错误，请问如何解决该问题？

解决方案

public static void main(String[] args) { try { //Solr cell can also index MS file (2003 version and 2007 version) types. String fileName = "c:/Sample.pdf"; //this will be unique Id used by Solr to index the file contents. String solrId = "Sample.pdf"; indexFilesSolrCell(fileName, solrId); } catch (Exception ex) { System.out.println(ex.toString()); } } /** * Method to index all types of files into Solr. * @param fileName * @param solrId * @throws IOException * @throws SolrServerException */ public static void indexFilesSolrCell(String fileName, String solrId) throws IOException, SolrServerException { String urlString = "http://localhost:8983/solr"; SolrServer solr = new CommonsHttpSolrServer(urlString); ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract"); up.addFile(new File(fileName)); up.setParam("literal.id", solrId); up.setParam("uprefix", "attr_"); up.setParam("fmap.content", "attr_content"); up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true); solr.request(up); QueryResponse rsp = solr.query(new SolrQuery("*:*")); System.out.println(rsp); }
解决方案二：
不用Solr，改用Lucenen。自己写索引生成程序和检索程序。
解决方案三：
那么大，一定要用流处理

时间： 2024-12-27 11:58:33

如何向solr服务器提交大日志文件的相关文章

使用 Map-Reduce 统计Web 服务器 access.log 日志文件

1.6. Map-Reduce 1.6.1. 使用 Map-Reduce 统计Web 服务器 access.log 日志文件首先将web服务器access.log倒入到mongodb,参考 http://netkiller.github.io/article/log.html. 格式如下: { "_id" : ObjectId("51553efcd8616be7e5395c0d"), "remote_addr" : "192.

字符串-php读取大日志文件,怎么玩?

问题描述 php读取大日志文件,怎么玩? php读取大日志文件,怎么玩? 急急急急急急急急本人是一名php新手,刚到公司1周左右... 项目经理给了我一个任务. 用户访问网站产生的日志文件有点大2.5g多(Nginx) 文件是这样的: 2xx.2x.1x7.1x0 - - [20/Jul/2015:16:55:34 +0800] "GET /index.php?s=User&m=User&a=shownotice&id[ 0]=exp&id[1]==0))+un

SQL Server 2008 收缩清空大日志文件方法总结

由于SQL2008对文件和日志管理进行了优化,所以在SQL2000和2005中可以运行的如下命令,但在SQL2008中不支持no_log清空日志. 1.清空日志代码如下复制代码 DUMP TRANSACTION 库名 WITH NO_LOG 2.截断事务日志: 代码如下复制代码 BACKUP LOG 库名 WITH NO_LOG SQL 2008收缩清空日志方法: 1.在SQL2008中清除日志就必须在简单模式下进行,等清除动作完毕再调回到完整模式,一定必务要再改回完整模式,不然数据库

MySQL InnoDB表空间及日志文件简介

MySQL一个显著的特点是其可插拔的存储引擎,因此MySQL文件分为两种:一种是MySQL服务器本身的文件(主要是一些日志文件,如错误日志.二进制日志等),所有的存储引擎共享:另一种是和具体存储引擎相关的文件.本文主要介绍和InnoDB存储引擎相关的文件(数据+日志),至于MySQL服务器本身的日志文件,可以参考<[MySQL] 日志文件概述 >. InnoDB表空间文件 InnoDB在很多方面和Oracle非常像,它的数据也是按表空间存储的,表空间是一个在逻辑上为整体的存储块,默认情况

Windows 2003 Server C盘空间被IIS日志文件消耗殆尽案例

今天突然收到手头一台数据库服务器的磁盘空间告警邮件,C盘空间只剩下5.41GB大小(当系统磁盘剩余空间小于总大小的10%时,发出告警邮件),如下图所示: 由于还有一些微弱印象:前阵子这台服务器的C盘剩余空间比较大."事出反常必有妖",肯定有什么不正常的情况发生,因为这台服务器有好几个账号,也是应用服务器(IIS和数据库部署在一起),例如,那个用户在桌面放一些大文件也有可能导致C盘空间被消耗,于是用TreeSzie工具分析查看到底是那些文件比较大,结果一查发现了一个惊人的事情: C:\W

SQL Server-聚焦事务对本地变量、临时表、表变量影响以及日志文件存满时如何收缩（三十一）

前言接下来我们将SQL Server基础系列还剩下最后几节内容结束,后续再来讲解SQL Server性能调优,我们开始进入主题. SQL Server事务对本地变量影响事务对变量影响具体是指什么意思呢,换句话说就是当我们回滚事务和提交事务之后对本地变量是否起作用呢,下面我们来看下具体例子. PRINT '回滚事务之后测试' DECLARE @FlagINT INT SET @FlagInt = 1 PRINT @FlagInt ---- 此时变量值为1 BEGIN TRANSACTION S

Oracle监听日志文件过大如何处理

Oracle监听器日志文件(通常叫做listener.log)是一个纯文本文件,它的大小是一直不断增长的,在一个生产Oracle服务器上,DBA会每日查看该文件,如检查监听器是否有异常停止,是否有恶意攻击连接等,当这个文件特别大的时候,打开和浏览文件内容时可能比较慢.这时可能会想到将当前的日志文件备份一下,然后重新创建一个新的日志文件,但Oracle的监听器在运行时是不允许对其日志文件做删除,重命名操作,于是只有停止监听器.重命名后,再启动监听器,启动时会自动创建一个新的监听器日志文件,但这样客

AIX 日志清理监听日志清理--过大的Oracle监听日志文件处理

AIX 日志清理监听日志清理--过大的Oracle监听日志文件处理 Oracle监听器日志文件(通常叫做listener.log)是一个纯文本文件,它的大小是一直不断增长的,在一个生产Oracle服务器上,DBA会每日查看该文件,如检查监听器是否有异常停止,是否有恶意攻击连接等,当这个文件特别大的时候,打开和浏览文件内容时可能比较慢.这时可能会想到将当前的日志文件备份一下,然后重新创建一个新的日志文件,但Oracle的监听器在运行时是不允许对其日志文件做删除,重命名操作,于是只有停止监听器.重

Sqlserver2005日志文件太大如何减小_mssql2005

Sqlserver2005日志文件太大,使其减小的方法如下所示: 运行下面的三行 dbName为数据库名: backup log dbNamewith NO_LOG backup log dbNamewith TRUNCATE_ONLY DBCC SHRINKDATABASE(dbName) 日志文件减小到1MB sql server清空日志文件2011-04-06 23:05 1: 删除LOG 1:分离数据库企业管理器->服务器->数据库->右键->分离数据库 2:删除LOG文

猜你喜欢

jsp留言板源代码二: 给jsp初学者

js|初学|源代码 guestbook.jsp =========================== <html><head> <META content=" ...

用ASP开发试题库与在线考试系统(1)

摘要利用网络和数据库技术,结合目前硬件价格普遍下跌与宽带网大力建设的有利优势,我们基于B/S模式研究开发了试题库与在线考试系统这一ASP应用程序.它运用方便.操作简单,效率很高,现阶段虽只实现了试 ...

C# 开发和使用中的23个技巧

1.怎样定制VC#DataGrid列标题? DataGridTableStyle dgts = new DataGridTableStyle(); dgts.MappingName = "m ...

那些年人均可知的seo技巧是否还有有章可循

那些年,人均可知的seo技巧是否还有有章可循,从09年开始接触seo,是从一本书籍开始关注这个行业,回顾以前的生活,看看过往那些seo技巧,于是想写一篇seo的教程类文章,那些年,我们追过的seo技巧 ...

谈大型信息类网站如何优化

说到大型信息类网站先从其它形式说起,这类网站的信息更新形式大多是由注册用户自行发布,而且信息的内容可能及其简单,这就减少了站长对信息内容的干预,站长要做好的优化内部结构,及控制好信息的重复度,本文将重 ...

GRE over IPSEC 同时NAT-T（PAT)的实验

1.拓扑图: 2.基本接口配置 R1: R1(config)#int e0/0 R1(config-if)#ip add 10.1.1.1 255.255.2555.0 R1(config-if)#n ...

Geeks 面试题之Ugly Numbers

Ugly Numbers Ugly numbers are numbers whose only prime factors are 2, 3 or 5. The sequence 1, 2, 3, ...

理解本真的REST架构风格

本文是"深入探索REST"专栏系列深度内容中的第二篇,它将带您领略REST架构的起源.与Web的关系.REST架构的本质及特性,以及REST架构与其他架构风格之间的比较. 引子 ...

Oracle的ORA-12516 错误

ORA-12516: TNS: 监听程序找不到符合协议堆栈要求的可用处理程 ORA-12516:TNS:监听程序无法找到匹配的信息栈的可用句柄错误ORA-12520:解决方法:查了一下,原来是以前设置 ...

Delphi编程技巧点滴

1.如何检测Insert.Capslock.NumLock.ScrollLock状态键的状态 Delphi可以调用Win API的Getkeyboardstate()函数. 常量按键名称 VK_IN ...

Dreamweaver制作网页实用六招

一.从外部文档中粘贴时,如果只要文字而不想要其格式,可以使用"编辑→粘贴文本"命令,不要直接用Ctrl+V. 二.当有浏览者使用Netscape浏览页面时,在改变窗口大小的时候 ...

金山卫士如何安装

金山卫士安装方法. 打开金山卫士官网主页,点击"立即免费下载"按钮.选择金山卫士安装程序要保存的位置,点击"保存"按钮,数秒内,金山卫士安装包下载完成.双击 ...

JavaScript按值删除数组元素的方法

本文实例讲述了JavaScript按值删除数组元素的方法.分享给大家供大家参考.具体实现方法如下: 代码如下: function ArrayRemoveByValue(str_value,arr_ ...

电脑关机没反应如何解决

一.首先打开运行窗口,输入regedit进入注册表编辑器,接着点击目录HKEY-LOCAL-MACHINESOFTWAREMicrosoftWindovsCurrenTVersionpolicie ...

excel2010如何加载宏

第一种方法: 先按组和键 Alt + T ,出现下图所示提示松开后,再单独按下 I . 然后就是如下图选择分析工具库第二种方法: 点击文件点击选项点击左边倒数第二个加载宏点击 ...

美图看看实用功能：批量编辑图片

喜欢泡论坛,记录生活见闻的网友,帖子里少不了精美图片的点缀;日常工作就是和图片打交道的图片编辑们,每日图片更新前也必定要对图片作些批量处理.然而,图片处理只是热身工作,太费事可不行,所以我们需要像美图 ...

U盘无法格式化怎么办

方法一: 1.点开始-运行-输入cmd-format f: /fs: FAT32 (这里f:是指U盘所在盘符) 2.打开控制面板-管理工具-计算机管理-磁盘管理-找到U盘的所在的盘符--点右键-- ...

如何破解YouTube视频推荐算法？

如何破解YouTube视频推荐算法? 如果你是某个发行渠道(比如电影.戏剧.电视节目.网络视频)的内容工作者,那么内容的成败就取决于发行机制的运转逻辑.比如说,你制作了一档电视节目,你很想它能 ...

求大神教教怎么使用jQuery-File-Upload-8.8.5插件上传图片

问题描述求大神教教怎么使用jQuery-File-Upload-8.8.5插件上传图片求大神教教怎么使用jQuery-File-Upload-8.8.5插件上传图片,不太看得懂,在jsp里面实现

中国市场呼唤高手的战争

3Q大战余音袅袅,官司至今还没有了结,"3SB大战"又炮火纷飞.日前,360搜索横空出世,给中国搜索市场格局增添了变数.百度认为360盗用了自己的搜索数据,于是将360搜索流量强制 ...

《C语言程序设计》一 2.3　运算符和表达式

2.3 运算符和表达式在前面的例子程序中已经多次用到基本的运算.运算符是表示某种操作的符号,操作的对象叫操作数,用运算符把操作数连接起来形成一个有意义的式子叫表达式.C语言为了加强对数据的表达.处理 ...

中小型商业银行的软件安全测试之道

随着移动应用.互联网+时代的到来,几乎每个银行的都已经把主要的业务搬到互联网和移动互联网上来.随之而给带来了两个重大的趋势: 一方面,软件外包开发空前的繁荣起来,银行除了要提供网上银行,电话银行的业务 ...

java maven-eclipse导入maven项目乱码

问题描述 eclipse导入maven项目乱码如题.eclipse导入maven项目.代码里的中文都乱码了.怎么破?还能改过来吗?类似于:contains("瀵嗙爜涓嶆?纭?))

visual studio-使用VS打包程序后安装exe后启动页面需要10秒才能显示页面，如果让页面一打开就有

问题描述使用VS打包程序后安装exe后启动页面需要10秒才能显示页面,如果让页面一打开就有解决方案这10秒一定是进行了读取数据库等耗时的操作,建议检查一下程序中有哪些操作耗时,向将该功能注释掉 ...

javaweb 打印-在浏览器客户端打印服务器数据库了的数据（java-web开发）

问题描述在浏览器客户端打印服务器数据库了的数据(java-web开发) 诸位,小弟现在做一个java-web项目,项目要求做一个"在浏览器客户端打印服务器数据库数据"的功能.我试 ...

抛不开百度你的网站只能到此为止

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅百度,不可否认地说它是一个非常成功 ...

移动商街空间SaaS移动商街全程商务

问题描述手机移动移动商街经销商唯一前提条件商务也对,移动商街通讯社有限公司任何工作人员域名唯一,域名提供商亚运互联网升值工商局移动商街.东莞市移动抱上具有雷军网络实名,一旦实名集团传播速度有限公司网 ...

求救，用户控件的使用问题。

问题描述做一个c/s程序,因为数据结构不同,制作多个用户控件,我想在一个窗口上根据条件显示用户控件,请教代码应该如何编写.写不出来解决方案解决方案二:自己顶解决方案三:刚做了一个,说明如下:us ...

rho 01nov11发布小型文本编辑器

Rho是一个基于控制台的小型且易于配置的http://www.aliyun.com/zixun/aggregation/18444.html">文本编辑器.其功能是提供有益于编码的PO ...

银行围猎角逐草根P2P企业现倒闭潮

上半年草根P2P企业出现了倒闭潮.跑路潮,但依然难阻PE.VC.产业资本.银行等抢滩.尤其是去年9月以来,"正规军"银行"闯入"P2P小生意,开展一场围猎P2P ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.022 s.