apache - Apache Solr - 索引数据库表似乎检索的记录多于表中包含的记录

Question

我对 Solr 很陌生，所以如果我说一些没有意义的话，请告诉我。

我最近设置了 Solr 4.0 beta，它运行良好。它使用 DIH 设置以从 MySQL DB 读取视图。该视图包含大约 2000 万行和 16 列。许多列有很多 NULL 值。数据库的性能非常好——当我手动运行查询时，我得到了亚秒级查询时间。

我将 Solr 指向视图，它开始了索引过程。四个小时后我回来检查它，发现它不仅仍在索引，而且报告说它获得了 200+ 百万。

我是否误解了 Solr 的工作原理？我假设它会获取与数据库中相同数量的行 - 大约是 2000 万。或者，它实际上是否将每个字段都计为获取的项目？或者，更糟糕的是，它是否处于某种循环中？

我通过将查询限制为 100,000 条记录，对同一视图中的一小部分数据进行了预先测试。完成后，它报告说准确地获取了 100,000。我也没有在日志中收到任何警告/错误。

关于发生了什么的任何想法？

score 0 · Accepted Answer

该数字表示 db 中的行。你能发布你的 db-data-config.xml 文件吗？我认为您应该再次检查您的sql。

1 回答 1