我有两个数据框作为 csv 文件,其中df1
的行数超过df2
:
Df1
Name Count
xxx yyyyyy bbb cccc 15
fffdd 444 ggg 20
kkbbb ccc dd 29p 5
22 cc pbc2 kmn3 b23 efgh 4
ccccccccc sss qqqq 2
Df2
Name
xxx yyyyyy bbb cccc
ccccccccc sss qqqq pppc
22 cc pbc2 kmn3 b23,efgh
我想通过匹配前两个/三个单词来进行部分匹配(近似/模糊匹配)。基本上输出将是这样的:
输出:
Name Count
xxx yyyyyy bbb cccc 15
22 cc pbc2 kmn3 b23 efgh 4
ccccccccc sss qqqq 2
通过尝试完全匹配,我遗漏了一些行。我在 R 中尝试过agrep
,但不知何故它不起作用并且模糊匹配很慢。请建议我在 R 或 python 中执行此操作。任何帮助表示赞赏!