google-refine - 谷歌细化：使用方面工具来推断两列之间的映射

Question

我一直在搜索，但还没有找到如何在细化中做到这一点。

我有两列唯一IDS。对于 A 中的每个 a，我想在 B 中找到前 10 个最接近的匹配项。

我的后备计划是只使用 Levenshtein 进行迭代……但是 Refine 有一个非常好的迭代界面，并且实现了更多算法，我希望能够使用它来完成一些工作。

还是有其他工具可以做到这一点？

score 1 · Accepted Answer

您是否知道可以在 Refine 的聚类界面中使用诸如指纹或 ngramFingerprint（源代码）之类的聚类算法？

使用您的 IDS 字段，使用以下表达式基于此列创建一个新列：ngramFingerprint(value)

您现在可以在此新列上与您的其他数据集交叉。这可能有助于获得更多匹配。

1 回答 1