4

如果这个问题已经在某个地方得到回答,我提前道歉 - 我找不到它。

我对 Solr 比较陌生,并且一直按照教程给出的说明使用默认的 SimplePostTool 从命令行索引我的数据。我目前在测试中使用 Solr 4.0。

首先,我通过查询删除索引中的所有内容。然后我将 SimplePostTool 指向几个目录并索引数万个文件。就我而言,目前,每个 XML 文件都是一个单独的文档。一些文档可能具有相同的 uniqueKey ID。如果重要的话,XML 文档的大小范围为 4-60kB。

SimplePostTool 完成后返回,并表示已索引 26,541 个文件。然后我查看 Admin collection1 页面,看到 Num Docs = 20,985 和 Max Doc = 22,921。

我看过其他帖子讨论 Num Docs 和 Max Doc 之间的差异(我觉得我充分理解覆盖行为)。我的问题是为什么 SimplePostTool 报告的索引文档数量与 Solr 管理页面给出的 Max Doc 不匹配?

4

1 回答 1

5

您有不同数量的 numDocs 和 maxDoc 的原因:

numDocs 表示索引中可搜索文档的数量(并且将大于 XML 文件的数量,因为某些文件包含多个文件)。maxDoc 可能更大,因为 maxDoc 计数包括尚未从索引中删除的逻辑删除文档。您可以根据需要一遍又一遍地重新发布示例 XML 文件,并且 numDocs 永远不会增加,因为新文档将不断替换旧文档。来自:Solr 官方教程。这适用于旧版本。

您可以通过优化索引来删除逻辑删除的文件->

于 2013-09-01T22:00:36.977 回答