我想对我们当前存储在 Solr 中的数据进行推荐、聚类和分类。Solr 是我们的主要数据存储。为此,我刚刚开始使用 Mahout + Hadoop。
我假设 Solr 索引对于 Mahout(或其他 Hadoop 作业)的输入不是一种友好的格式;我必须先将其转换为文本格式,然后才能对其执行 map-reduce 操作。也就是说,我必须在 HDFS 中有一个始终与 Solr 中的数据同步的文本文件。
在 Solr for Hadoop/Mahout 中使用数据的好计划是什么?我应该将 Solr 中的更改同步到 HDFS 中的文件吗?
这是我计划将 solr 数据同步到文件的方法。对于用户X
:
- 自 LATEST_TIME 以来获取 100 个文档
- 将这些文档转换为文本并使用文件名存储:'X_LATEST_TIMESTAMP'
- 将 X_LATEST_TIMESTAMP 与主文件合并:如果主文本文件说 doc ID 123 有内容并且 X_LATEST_TIMESTAMP 说该文档已被删除,则新的主文件会反映该更改
- 更新 LATEST_TIME