我有一个 postgresql 数据库。在我需要索引的表中,我有大约 2000 万行。当我想一次尝试将它们全部索引时(例如“从 table_name 中选择 *”),我有 Java OutOfMemory 错误,即使我会给 JVM 更多内存。
SOLR 中是否有任何选项可以逐部分索引表(例如,对前 1000000 行执行 sql,然后对其进行索引,然后对第二百万行执行 sql)?
现在我正在使用带有 LIMIT 的 sql 查询。但是,每次当 solr 索引它时,我都需要手动重新启动它。
更新:好的,1.4 已经发布了。似乎没有 OutOfMemory Exceptions,Apache 在 DIH 上做了很大的工作。此外,现在我们可以通过请求传递参数,并在我们的 SQL 选择中使用它们。哇!