lucence 文档评分公式

1.简介

分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。

score(query,doc)=∑term∈queryscore(term,doc)(1-1)

2.term与doc的评分

2.1 基于tf-idf

score(t,d)=tf(t,d)∗idf(t)2∗boost(t,d)∗lengthNorm(t,d)∗coord(q,d)∗queryNorm(q)(2-1)

符号	说明	备注
t	term	/
d	doc	/
q	term 所在query	/
tf(t,d)	term在doc中的频率	/
idf(t)	1含有term的doc的频率	/
boost(t,d)	域和文档的加权	在索引期间设置。可以用该方法对某个域或文档进行静态单独加权
lengthNorm(t,d)	域的归一化值	域的归一化(normalization)值，更短的域获得更大的加权。该值在索引期间计算，并保存在索引norm中。
coord(q,d)	协调因子(Coordination factor)	基于doc与query的term的交集的数量。该因子会对包含更多搜索项的文档进行类似AND 的加权。
queryNorm(q)	查询的归一化值	每个term权重的平方和

此表格来源于《lucene实战(第二版)》，P82.

tf*idf思想可见《tf*idf 用于文本分类中的特征提取》

2.2 基于BM25

score(t,d)=idf(t)∗(k1+1)∗tf(t,d)k1((1−b)+b∗dlavgdl)+tf(t,d)(2-2)

k1,b为调节因子，根据经验设置，一般取k1=2,b=0.75,dl为文档长度，avgdl为所有文档的平均长度。

时间： 2024-11-13 07:55:35

lucence 文档评分公式的相关文章

lucene 文档评分及 CustomScoreQuery

1.评分评分公式可见<lucence 文档评分公式> 2.解释 org.apache.lucene.search.Explanation 类,用于解释评分细节. String org.apache.lucene.search.Explanation.toString() 文本格式输出. String org.apache.lucene.search.Explanation.toHtml() html格式输出.例子见图2-1. 图2-1 toHtml()格式的explanation Expla

SharePoint 2010的文档评分功能

如果大家使用SharePoint来构建文档管理解决方案,给文档评分其实是一个挺常见的需求.可惜在之前的版本中,SharePoint并没有内置这个功能,当然,也不断的有社区项目,通过自定义开发的方式,给SharePoint文档库添加上这个功能.SharePoint 2010终于给文档库(实际上是所有列表),都加上了给文档(和列表项)评分的功能. 在文档库设置中,打开"等级设置"页面,然后在页面中启用等级评定. 然后文档库中会增加两个网站栏,"等级(0-5)"和&quo

Word文档中公式和图片无法正常显示

在打开Word文件后,图片.公式不能正常显示,应显示图片和公式的地方有一个红色"×". 文档中公式和图片无法正常显示-word文档无法正常打开"> 这种问题比较常见,主要是系统同时打开了太多应用程序或者使用的Word打开的文档太大,导致内存资源不足.解决这种故障没有太好的办法,除了添加内存外,在平时编辑链接很多的文档,注意不要同时打开太多应用程序和文档,减少系统资源的占用.

MathType批量调整Word文档中公式的大小

在用Word编辑的数学试卷中,会有大量的公式存在.如果在文档编辑完成后,需要重新调整字号的大小,那么文档中的这些公式怎么办呢? 通常情况下,Word文档中的这些公式都是用MathType编辑完成的,在Word中将它们当成图形对象来对待的.我们不可能一个一个地选中图形然后拖动鼠标手工完成公式大小的调整.下面的办法可以让我们批量完成公式中字号大小的调整,从而达到调整公式大小的目的. 先运行MathType,点击"Size"菜单中的"Define"命令,如图1所示.

《深入理解Elasticsearch（原书第2版）》——第2章查询DSL进阶 2.1 Apache Lucene默认评分公式解释

第2章查询DSL进阶在上一章,我们了解了什么是Apache Lucene,它的整体架构,以及文本分析过程是如何完成的.之后,我们还介绍了Lucene的查询语言及其用法.除此之外,我们也讨论了Elasticsearch,讨论了它的架构,以及一些核心概念.在本章,我们将深入研究Elasticsearch的查询DSL(Domain Specific Language).在了解那些高级查询之前,我们将先了解Lucene评分公式的工作原理.到本章结束,将涵盖以下内容: Lucene默认评分公式是如何工

《深入理解Elasticsearch（原书第2版）》一第2章查询DSL进阶2.1　Apache Lucene默认评分公式解释

Word文档使用技巧

1.快速给文字加下划线如果在Word文档中,有一段带有空格键的文本,而现在只想给该段文本中的文字加上下划线,并且忽略其中的空格.此时,请选中该段文本,然后按下"Ctrl+Shift+W"键就搞定了. 2.用特殊符号快速绘制分隔线在用Word编辑文档时,时常会用到一些直线或是虚线作为文档的横向分隔线,常用的绘制方法是插入剪贴画中的水平线来实现,但这种方法太烦琐.其实在 Word中可以利用一些特殊符号加回车键的办法来快速绘制常用的横向分隔线.连续输入3个以上的"*"

Domino8无法拷贝文档?100分

问题描述晕死了,想将几个文档从一个数据库拷贝到另一个数据库,我记得以在的版本都是在源数据库的视图中选中文档,右键"复制",再到目标数据库右键"粘贴"就行了,怎么我现在用Domino8就怎么也不行呢?不提示错误,但就是没反应,"粘贴"时出现的内容都是些在别的地方"复制"的字符.在当前数据库里复制粘贴也不成功...我是这个数据库的最高权限者.在线等...郁闷死了,高手们救命. 解决方案解决方案二:8.x版本肯定是可以的,曾经用

如何将MathType公式粘贴到文档

方法一:使用MathType菜单 1.在Word菜单中点击MathType菜单,在所列出的菜单中直接使用"插入内联公式(Insert Inline Equation)"或者是"插入显示公式(Insert Display Equation)".一般如果没有特殊要求,都会使用第二个显示公式命令,这样在后期进行排版时调整比较方便. 文档-mathtype不能复制粘贴"> 在Word的MathType菜单下调出MathType软件 2.使用此命令后,会自动弹