如果这个问题已经在某个地方得到回答,我提前道歉 - 我找不到它。
我对 Solr 比较陌生,并且一直按照教程给出的说明使用默认的 SimplePostTool 从命令行索引我的数据。我目前在测试中使用 Solr 4.0。
首先,我通过查询删除索引中的所有内容。然后我将 SimplePostTool 指向几个目录并索引数万个文件。就我而言,目前,每个 XML 文件都是一个单独的文档。一些文档可能具有相同的 uniqueKey ID。如果重要的话,XML 文档的大小范围为 4-60kB。
SimplePostTool 完成后返回,并表示已索引 26,541 个文件。然后我查看 Admin collection1 页面,看到 Num Docs = 20,985 和 Max Doc = 22,921。
我看过其他帖子讨论 Num Docs 和 Max Doc 之间的差异(我觉得我充分理解覆盖行为)。我的问题是为什么 SimplePostTool 报告的索引文档数量与 Solr 管理页面给出的 Max Doc 不匹配?