solr - 无重复数据的分面搜索（无 ETL）

Question

到目前为止，我看到的所有解决方案都涉及使用 nosql 或数据仓库来复制数据。有没有更有效的方法？

2011-06-07 编辑：当我说没有重复时，我的意思是也没有ETL。我想直接从主数据库中提取数据。这是相关的，但我及时改变。

score 1 · Accepted Answer

Solr有一个添加字段折叠的补丁。它工作得很好，除了当返回的结果集是数百万个文档时会报告问题。

此外，它不会非常精确地计算分面数 - 有时所有分面的总数与集合中的文档数不符。但是，差异似乎总是没有那么大 - 我注意到 10000-50000 个文档的结果集的波动小于 100。

显然，要使用此补丁，您必须构建自己的 Solr 版本。如果您对此不满意，可以尝试我正在使用的已构建版本。我已将修补的 .war 文件和我的“lib”文件夹上传到我的 SkyDrive（不确定后者是否必要，以及补丁是否对库进行了任何更改，但以防万一它们也在那里）。另外我需要提一下，这个版本应该由您自己承担风险使用 - 他们为我服务而没有任何严重的投诉，但我不能保证对其他人也是如此。这是下载链接。

或者，您可以等待 Solr 4 发布 - 它将包括字段折叠，但在我上次检查时它仍然存在未解决的关键问题。顺便说一句，它的折叠搜索参数将与上述补丁不兼容，因此您使用第一个，然后使用另一个，您还需要修改您的代码。

solr - 无重复数据的分面搜索（无 ETL）

1 回答 1

Related

Reference