我有以下问题:我有很多键值对形式的数据。关键是一些 id 和值 - 一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是 MapReduce 的一项任务,如果将我的文本片段作为键,并将 id 作为值。但是这样的键不是 MapReduce 使用的传统方式,而且由于我并不真正了解 MapReduce 框架的内部实现,我不确定这种方式是否有效。所以我的详细想法是:1.在Java(Hadoop,GridGain)中使用一些MapReduce 2.为我的文本片段创建特殊类(比如TextKey)3.覆盖类的equals(),在这里打包文本比较逻辑(比如列文斯坦距离比较,或其他)4。
MapReduce 可以这样工作吗?