python - 2列之间的模糊匹配（Python）

Question

我有一个名为“df_combo”的熊猫数据框，其中包含“worker_id”、“url_entrance”、“company_name”列。我正在尝试生成一个输出列，它会告诉我“url_entrance”列中的 URL 是否包含“company_name”列中的任何单词。即使是像fuzzywuzzy这样的近距离匹配也可以。

例如，如果 URL 是“www.grandhotelseattle.com”，而“company_name”是“Hotel Prestige Seattle”，那么模糊率可能在 70-80 之间。

我尝试了以下脚本： >>>fuzz.ratio(df_combo['url_entrance'],df_combo['company_name']) 但它只返回 1 个数字，这是整个列的整体模糊率。我想为每一行设置模糊比率并将这些比率存储在一个新列中。

score 4 · Accepted Answer

感谢大家的投入。我已经解决了我的问题！“agg3l”提供的链接很有帮助。我看到的“TypeError”是因为“url_entrance”或“company_name”在某些行中有一些浮动类型。我使用以下脚本将两列都转换为字符串，重新运行 fuzz.ratio 脚本并让它工作！

df_combo['url_entrance']=df_combo['url_entrance'].astype(str) df_combo['company_name']=df_combo['company_name'].astype(str)

python - 2列之间的模糊匹配（Python）

1 回答 1

Related

Reference