0

我们正在使用 Lucid works Solr 4.6 版。

我们的源系统基本上将数据存储到两个目标系统(一个通过实时,另一个通过批处理模式)。数据通过实时路径被摄取到 Solr 中。

我们需要定期将 Solr 中摄取的数据与批处理系统中摄取的数据同步。

我们目前正在尝试评估的设计是将批处理系统中的数据导入另一个 Solr 集合,但真的不确定如何同步两个集合(即具有实时数据的集合,第二个是通过批量导入)。

我通读了数据导入处理程序,但这将覆盖 Solr 中的现有数据。有什么方法可以识别两个集合之间的增量并仅摄取它。

4

1 回答 1

0

没有好办法;您可以做几件事:

  1. 当数据进入实时系统时,会有一个导入时间戳。然后进行范围查询以获取新内容。我认为 Solr 的新版本已经为此提供了一个领域。
  2. 记录进入第一个 Solr 的文档 ID,然后对它们进行索引。
  3. 另一个集合的单独队列
于 2015-09-30T16:30:27.873 回答