我正在重用我之前编写的一些代码来快速字典。我以前用它来比较一个列表和熊猫列中的值,但是现在我试图对多个列做同样的事情,它以一个断言错误结束。
EntityName = df['COLUMN1'].astype(str)
df['COMPARE'].astype(str)
compare_data = df['COMPARE'].copy()
matches = dict()
for name in EntityName:
matches[name] = dict()
for match in compare_data:
jw_score = jaro.jaro_winkler_metric(name, match)
if jw_score >= 0.8:
matches[name][match] = jw_score
列的大小不同。比较列要短得多,并且使用 jaro.jaro 等式我只是试图返回满足阈值的值。以前我使用了数据框中的样本:
sample_list = df['SOMECOLUMN'].sample(n = 10, random_state = 42)
string3 = sample_list
compare_data = df['ANOTHERCOLUMN'].copy()
matches = dict()
for name in string3:
matches[name] = dict()
for match in compare_data:
jw_score = jaro.jaro_winkler_metric(name, match)
if jw_score >= 0.8:
matches[name][match] = jw_score
任何帮助将不胜感激。