python - 基于条件的 2 个大型数据集上的模糊模糊字符串匹配 - python

Question

我有 2 个已读入 Pandas DataFrames 的大型数据集（分别约为 20K 行和 ~40K 行）。当我尝试在地址字段上使用 pandas.merge 直接合并这两个 DF 时，与行数相比，我得到的匹配数微不足道。所以我想我会尝试模糊字符串匹配，看看它是否会提高输出匹配的数量。

我通过尝试在 DF1（20K 行）中创建一个新列来解决这个问题，这是将 DF1[addressline] 上的fuzzywuzzy extractone 函数应用于 DF2[addressline] 的结果。我很快意识到这将花费很长时间，因为它将进行近 10 亿次比较。

这两个数据集都有“县”字段，我的问题是：有没有办法根据“县”字段有条件地对两个 DF 中的“地址行”字段进行模糊字符串匹配？在研究类似于我的问题时，我偶然发现了这个讨论：Fuzzy logic on big datasets using Python

但是，对于如何根据县对字段进行分组/阻止，我仍然很模糊（没有双关语的意思）。任何建议将不胜感激！

import pandas as pd
from fuzzywuzzy import process

def fuzzy_match(x, choices, scorer, cutoff):
  return process.extractOne(x, choices = choices, scorer = scorer, score_cutoff= cutoff)[0]

test = pd.DataFrame({'Address1':['123 Cheese Way','234 Cookie Place','345 Pizza Drive','456 Pretzel Junction'],'ID':['X','U','X','Y']}) 
test2 = pd.DataFrame({'Address1':['123 chese wy','234 kookie Pl','345 Pizzza DR','456 Pretzel Junktion'],'ID':['X','U','X','Y']}) 
test['Address1'] = test['Address1'].apply(lambda x: x.lower()) 
test2['Address1'] = test2['Address1'].apply(lambda x: x.lower()) 
test['FuzzyAddress1'] = test['Address1'].apply(fuzzy_match, args = (test2['Address1'], fuzz.ratio, 80))

我添加了 2 个图像，它们是导入 Excel 的 2 个不同 DF 的样本集。并非所有字段都包括在内，因为它们对我的问题并不重要。为了重申我的最终目标，我想要一个 DF 中的一个新列，该列具有将地址行与第二个 DF 中的其他地址行进行模糊匹配的最佳结果，但仅适用于县在两个 DF 之间匹配的那些行。从那里我计划合并两个 df，一个在模糊匹配地址和第二个 DF 中的地址行列上。希望这听起来不会令人困惑。

score 8 · Accepted Answer

您可以调整您的fuzzy_match函数以将 id 作为变量，并在进行模糊搜索之前使用它来对您的选择进行子集化（请注意，这需要将函数应用于整个数据帧而不仅仅是地址列）

def fuzzy_match(x, choices, scorer, cutoff):
    match = process.extractOne(x['Address1'], 
                               choices=choices.loc[choices['ID'] == x['ID'], 
                                                   'Address1'], 
                               scorer=scorer, 
                               score_cutoff=cutoff)
    if match:
        return match[0]

test['FuzzyAddress1'] = test.apply(fuzzy_match, 
                                   args=(test2, fuzz.ratio, 80), 
                                   axis=1)

python - 基于条件的 2 个大型数据集上的模糊模糊字符串匹配 - python

1 回答 1

Related

Reference