我需要实现以下问题:我正在获取类型的数据
public class Data{
private String key;
private String valueData;
}
我需要编写一个 map reduce 作业来获取所有唯一键,每个键都有一个(随机)valueData。hadoop 听起来很简单,是的,我知道如何实现这一点。
但真正的问题是,我还需要减少所有“相似”键。并且输出应该是与dataValue之一相似的键之一
在 hadoop 中实现这一点的最佳方法(以及如何)是什么?我还希望能够灵活地更改相似度算法。