我们有一个第三方“工具”,它可以找到相似的名称并在两个名称之间分配相似度分数。
我应该尽可能地模仿工具的行为。在网上搜索后,试了一下距离法。同样用了fuzzywuzzy。
matches = process.extractBests(
name,
choices,
score_cutoff=50,
scorer=fuzz.token_sort_ratio,
limit=1
);
它给出了接近工具结果的结果。但是,异常值很少 - 如下所示。
在互联网上进一步搜索后,我了解到进一步细化需要实施机器学习。我是机器学习领域的新手——因此寻求一些建议,以了解下一步我应该在哪里尝试进一步改进代码。
谢谢!