情况就是这样,我的数据导入处理程序中有两个数据源,一个很大,另一个很小:
Source A: 10-20 records
Source B: 50,000,000 records
我想知道如果我每 10 分钟在源 A 上执行一次 DIH,并且每 24 小时只在源 B 上运行一次 DIH,会发生什么情况。
在源 A 上运行我的 DIH 会非常快,因为我们正在导入的数据很小,或者它仍然很耗时,因为它必须重建整个 SOLR 的索引(即 50,000,010 条记录)。
谢谢!
情况就是这样,我的数据导入处理程序中有两个数据源,一个很大,另一个很小:
Source A: 10-20 records
Source B: 50,000,000 records
我想知道如果我每 10 分钟在源 A 上执行一次 DIH,并且每 24 小时只在源 B 上运行一次 DIH,会发生什么情况。
在源 A 上运行我的 DIH 会非常快,因为我们正在导入的数据很小,或者它仍然很耗时,因为它必须重建整个 SOLR 的索引(即 50,000,010 条记录)。
谢谢!
在源 A 上运行我的 DIH 会非常快,因为我们正在导入的数据很小,或者它仍然很耗时,因为它必须重建整个 SOLR 的索引(即 50,000,010 条记录)。
如果您只更新10-20 条记录而不是50,000,010 条记录,那么从 Source1 到您的索引的数据导入应该很快。
您可以通过在数据导入期间提供实体名称来做到这一点,如下所示:
http://localhost:8080/solr/collection1/dataimport?command=full-import&entity=Source1
即使对于这 10 到 20 条记录,您也可以在执行初始full-import之后在后续调用中执行delta- import 。