我一直在搜索,但还没有找到如何在细化中做到这一点。
我有两列唯一IDS。对于 A 中的每个 a,我想在 B 中找到前 10 个最接近的匹配项。
我的后备计划是只使用 Levenshtein 进行迭代……但是 Refine 有一个非常好的迭代界面,并且实现了更多算法,我希望能够使用它来完成一些工作。
还是有其他工具可以做到这一点?
我一直在搜索,但还没有找到如何在细化中做到这一点。
我有两列唯一IDS。对于 A 中的每个 a,我想在 B 中找到前 10 个最接近的匹配项。
我的后备计划是只使用 Levenshtein 进行迭代……但是 Refine 有一个非常好的迭代界面,并且实现了更多算法,我希望能够使用它来完成一些工作。
还是有其他工具可以做到这一点?
您是否知道可以在 Refine 的聚类界面中使用诸如指纹或 ngramFingerprint(源代码)之类的聚类算法?
使用您的 IDS 字段,使用以下表达式基于此列创建一个新列:ngramFingerprint(value)
您现在可以在此新列上与您的其他数据集交叉。这可能有助于获得更多匹配。