2

我有一个名为“df_combo”的熊猫数据框,其中包含“worker_id”“url_entrance”“company_name”列。我正在尝试生成一个输出列,它会告诉我“url_entrance”列中的 URL 是否包含“company_name”列中的任何单词。即使是像fuzzywuzzy这样的近距离匹配也可以。

例如,如果 URL 是“www.grandhotelseattle.com”,而“company_name”是“Hotel Prestige Seattle”,那么模糊率可能在 70-80 之间。

我尝试了以下脚本: >>>fuzz.ratio(df_combo['url_entrance'],df_combo['company_name']) 但它只返回 1 个数字,这是整个列的整体模糊率。我想为每一行设置模糊比率并将这些比率存储在一个新列中。

4

1 回答 1

4

感谢大家的投入。我已经解决了我的问题!“agg3l”提供的链接很有帮助。我看到的“TypeError”是因为“url_entrance”或“company_name”在某些行中有一些浮动类型。我使用以下脚本将两列都转换为字符串,重新运行 fuzz.ratio 脚本并让它工作!

df_combo['url_entrance']=df_combo['url_entrance'].astype(str) df_combo['company_name']=df_combo['company_name'].astype(str)

于 2016-10-20T20:09:08.083 回答