3

我们有一个第三方“工具”,它可以找到相似的名称并在两个名称之间分配相似度分数。

我应该尽可能地模仿工具的行为。在网上搜索后,试了一下距离法。同样用了fuzzywuzzy

matches = process.extractBests(
    name, 
    choices, 
    score_cutoff=50, 
    scorer=fuzz.token_sort_ratio,
    limit=1 
);

它给出了接近工具结果的结果。但是,异常值很少 - 如下所示。

在此处输入图像描述

在互联网上进一步搜索后,我了解到进一步细化需要实施机器学习。我是机器学习领域的新手——因此寻求一些建议,以了解下一步我应该在哪里尝试进一步改进代码。

谢谢!

4

2 回答 2

2

看看这个包。为名称匹配 HMNI 包量身定做

于 2021-03-11T22:10:11.963 回答
0

看一下用于模糊字符串匹配的 Jaccard 和 Levenshtein 算法。两者都比较简单,可以用大约 40 或 50 行代码来实现。

于 2019-05-27T13:34:38.267 回答