0

我想对我们当前存储在 Solr 中的数据进行推荐、聚类和分类。Solr 是我们的主要数据存储。为此,我刚刚开始使用 Mahout + Hadoop。

我假设 Solr 索引对于 Mahout(或其他 Hadoop 作业)的输入不是一种友好的格式;我必须先将其转换为文本格式,然后才能对其执行 map-reduce 操作。也就是说,我必须在 HDFS 中有一个始终与 Solr 中的数据同步的文本文件。

在 Solr for Hadoop/Mahout 中使用数据的好计划是什么?我应该将 Solr 中的更改同步到 HDFS 中的文件吗?


这是我计划将 solr 数据同步到文件的方法。对于用户X

  1. 自 LATEST_TIME 以来获取 100 个文档
  2. 将这些文档转换为文本并使用文件名存储:'X_LATEST_TIMESTAMP'
  3. 将 X_LATEST_TIMESTAMP 与主文件合并:如果主文本文件说 doc ID 123 有内容并且 X_LATEST_TIMESTAMP 说该文档已被删除,则新的主文件会反映该更改
  4. 更新 LATEST_TIME
4

1 回答 1

0

你可能最好看看像DataStax这样的东西,它包括并集成了(AFAIK)Solr、Cassandra 和 Hadoop。当然,这是一种商业产品。他们有一个社区版,但我不认为它集成了 Solr。

于 2013-05-16T19:48:12.587 回答