0

情况就是这样,我的数据导入处理程序中有两个数据源,一个很大,另一个很小:

Source A: 10-20 records 
Source B: 50,000,000 records 

我想知道如果我每 10 分钟在源 A 上执行一次 DIH,并且每 24 小时只在源 B 上运行一次 DIH,会发生什么情况。

在源 A 上运行我的 DIH 会非常快,因为我们正在导入的数据很小,或者它仍然很耗时,因为它必须重建整个 SOLR 的索引(即 50,000,010 条记录)。

谢谢!

4

1 回答 1

0

在源 A 上运行我的 DIH 会非常快,因为我们正在导入的数据很小,或者它仍然很耗时,因为它必须重建整个 SOLR 的索引(即 50,000,010 条记录)。

如果您只更新10-20 条记录而不是50,000,010 条记录,那么从 Source1 到您的索引的数据导入应该很快

您可以通过在数据导入期间提供实体名称来做到这一点,如下所示:

http://localhost:8080/solr/collection1/dataimport?command=full-import&entity=Source1

即使对于这 10 到 20 条记录,您也可以在执行初始full-import之后在后续调用中执行delta- import 。

于 2013-05-28T05:34:39.633 回答