hadoop - 将 Solr 索引同步到 Hadoop 友好格式

Question

我想对我们当前存储在 Solr 中的数据进行推荐、聚类和分类。Solr 是我们的主要数据存储。为此，我刚刚开始使用 Mahout + Hadoop。

我假设 Solr 索引对于 Mahout（或其他 Hadoop 作业）的输入不是一种友好的格式；我必须先将其转换为文本格式，然后才能对其执行 map-reduce 操作。也就是说，我必须在 HDFS 中有一个始终与 Solr 中的数据同步的文本文件。

在 Solr for Hadoop/Mahout 中使用数据的好计划是什么？我应该将 Solr 中的更改同步到 HDFS 中的文件吗？

这是我计划将 solr 数据同步到文件的方法。对于用户X：

自 LATEST_TIME 以来获取 100 个文档
将这些文档转换为文本并使用文件名存储：'X_LATEST_TIMESTAMP'
将 X_LATEST_TIMESTAMP 与主文件合并：如果主文本文件说 doc ID 123 有内容并且 X_LATEST_TIMESTAMP 说该文档已被删除，则新的主文件会反映该更改
更新 LATEST_TIME

score 0 · Accepted Answer

你可能最好看看像DataStax这样的东西，它包括并集成了（AFAIK）Solr、Cassandra 和 Hadoop。当然，这是一种商业产品。他们有一个社区版，但我不认为它集成了 Solr。

1 回答 1