我对 Solr 很陌生,所以如果我说一些没有意义的话,请告诉我。
我最近设置了 Solr 4.0 beta,它运行良好。它使用 DIH 设置以从 MySQL DB 读取视图。该视图包含大约 2000 万行和 16 列。许多列有很多 NULL 值。数据库的性能非常好——当我手动运行查询时,我得到了亚秒级查询时间。
我将 Solr 指向视图,它开始了索引过程。四个小时后我回来检查它,发现它不仅仍在索引,而且报告说它获得了 200+ 百万。
我是否误解了 Solr 的工作原理?我假设它会获取与数据库中相同数量的行 - 大约是 2000 万。或者,它实际上是否将每个字段都计为获取的项目?或者,更糟糕的是,它是否处于某种循环中?
我通过将查询限制为 100,000 条记录,对同一视图中的一小部分数据进行了预先测试。完成后,它报告说准确地获取了 100,000。我也没有在日志中收到任何警告/错误。
关于发生了什么的任何想法?