1

我一直在搜索,但还没有找到如何在细化中做到这一点。

我有两列唯一IDS。对于 A 中的每个 a,我想在 B 中找到前 10 个最接近的匹配项。

我的后备计划是只使用 Levenshtein 进行迭代……但是 Refine 有一个非常好的迭代界面,并且实现了更多算法,我希望能够使用它来完成一些工作。

还是有其他工具可以做到这一点?

4

1 回答 1

1

您是否知道可以在 Refine 的聚类界面中使用诸如指纹或 ngramFingerprint(源代码)之类的聚类算法?

使用您的 IDS 字段,使用以下表达式基于此列创建一个新列:ngramFingerprint(value)

您现在可以在此新列上与您的其他数据集交叉。这可能有助于获得更多匹配。

于 2013-04-06T18:06:51.490 回答