0

我正在重用我之前编写的一些代码来快速字典。我以前用它来比较一个列表和熊猫列中的值,但是现在我试图对多个列做同样的事情,它以一个断言错误结束。

EntityName = df['COLUMN1'].astype(str)
df['COMPARE'].astype(str)

compare_data = df['COMPARE'].copy()
matches = dict()
for name in EntityName:
    matches[name] = dict()
    for match in compare_data:
        jw_score = jaro.jaro_winkler_metric(name, match)
        if jw_score >= 0.8:
            matches[name][match] = jw_score 

列的大小不同。比较列要短得多,并且使用 jaro.jaro 等式我只是试图返回满足阈值的值。以前我使用了数据框中的样本:

sample_list = df['SOMECOLUMN'].sample(n = 10, random_state = 42)

string3 = sample_list

compare_data = df['ANOTHERCOLUMN'].copy()
matches = dict()
for name in string3:
    matches[name] = dict()
    for match in compare_data:
        jw_score = jaro.jaro_winkler_metric(name, match)
        if jw_score >= 0.8:
            matches[name][match] = jw_score

任何帮助将不胜感激。

4

0 回答 0