java - lucene中的getTermFrequencyVector

Question

我开始了解 lucene 函数 getTermFreqVector() 在计算两个文档之间的余弦 theta 相似性距离时是如何工作的。谁能阐明 getTermFreqVector(doc number, field-name) 中“字段名称”的含义

score 0 · Accepted Answer

像 lucene 这样的倒排索引以允许您按术语执行非常高效的搜索的方式对数据进行索引。您索引文档，它们是字段的集合。字段只是一个键值对：字段名，字段值。

您可以轻松检索包含特定单词的文档，但检索特定文档的所有索引术语变得更加困难，因为术语枚举是按字段存储的，而不是按文档存储的。术语向量克服了这个问题，允许存储每个文档的信息，以便您可以以高性能的方式检索它，付出拥有更大索引的代价。

回到您的问题：术语向量存储在每个文档、每个字段中，这就是为什么您必须同时提供文档 ID 和字段名称才能检索它的原因。

1 回答 1