《深入理解Elasticsearch（原书第2版）》一2.1.1　何时文档被匹配上

2.1.1　何时文档被匹配上

一个文档被Lucene返回，意味着该文档与用户提交的查询是匹配的。在这种情况下，每个被返回文档会有一个得分。在某些场景下，所有文档的得分都一样（比如使用constant_score查询），不过一般情况下，各个文档的得分是不一样的。得分越高，文档更相关，至少从Apache Lucene及其评分公式的角度来看是这样的。得分还取决于匹配的文档、查询和索引内容，因此，很显然同一个文档对不同查询的得分是不同的。读者需要注意，同一文档在不同查询中的得分不具备可比较性，不同查询返回文档中的最高得分也不具备可比较性。这是因为文档得分依赖多个因子，除了权重和查询本身的结构，还依赖被匹配的词项数目、词项所在字段，以及用于查询规范化的匹配类型，如此等等。在一些比较极端的情况下，同一个文档在相似查询中的得分非常悬殊，仅仅是因为使用了自定义得分查询或者命中词项数的急剧变化。
现在，让我们再回到评分过程。为了计算文档得分，我们需要考虑以下这些因子。

文档权重（document boost）：索引期赋予某个文档的权重值。
字段权重（field boost）：查询期赋予某个字段的权重值。
协调因子（coord）：基于文档中词项个数的协调因子，一个文档命中了查询中的词项越多，得分越高。
逆文档频率（inverse document frequency）：一个基于词项的因子，用来告诉评分公式该词项有多么罕见。逆文档频率越高，词项就越罕见。评分公式利用该因子，为包含罕见词项的文档加权。
长度范数（Length norm）：每字段的基于词项个数的归一化因子（在索引期被计算并存储在索引中）。一个字段包含的词项数越多，该因子的权重越低，这意味着Apache Lucene评分公式更“喜欢”包含更少词项的字段。
词频（Term frequency）：一个基于词项的因子，用来表示一个词项在某个文档中出现了多少次。词频越高，文档得分越高。
查询范数(Query norm)：一个基于查询的归一化因子，它等于查询中词项的权重平方和。查询范数使不同查询的得分能互相比较，尽管这种比较通常是困难和不可行的。

时间： 2024-10-14 17:42:21

《深入理解Elasticsearch（原书第2版）》一2.1.1　何时文档被匹配上

2.1.1　何时文档被匹配上

《深入理解Elasticsearch（原书第2版）》一2.1.1　何时文档被匹配上的相关文章

《语义网基础教程（原书第3版）》—— 3.2　基础知识：匹配模式

《深入理解Elasticsearch（原书第2版）》一导读

《深入理解Elasticsearch（原书第2版）》——第2章查询DSL进阶 2.1 Apache Lucene默认评分公式解释

《深入理解Elasticsearch（原书第2版）》一第2章查询DSL进阶2.1　Apache Lucene默认评分公式解释

《深入理解Elasticsearch（原书第2版）》——导读

《深入理解Elasticsearch（原书第2版）》一2.1.4　一个例子

《机器学习与R语言（原书第2版）》一2.3　探索和理解数据

《机器学习与R语言（原书第2版）》一第2章数据的管理和理解

Java核心技术　卷Ⅰ　基础知识（原书第10版）

《深入理解Elasticsearch（原书第2版）》一2.1.1 何时文档被匹配上

2.1.1 何时文档被匹配上

《深入理解Elasticsearch（原书第2版）》一2.1.1 何时文档被匹配上的相关文章

《深入理解Elasticsearch（原书第2版）》一2.1.1　何时文档被匹配上

2.1.1　何时文档被匹配上

《深入理解Elasticsearch（原书第2版）》一2.1.1　何时文档被匹配上的相关文章