我正在尝试合并>=2
具有相同架构的文件。
这些文件将包含重复的条目,但行不会相同,例如:
file1:
store_id,address,phone
9191,9827 Park st,999999999
8181,543 Hello st,1111111111
file2:
store_id,address,phone
9191,9827 Park st Apt82,999999999
7171,912 John st,87282728282
Expected output:
9191,9827 Park st Apt82,999999999
8181,543 Hello st,1111111111
7171,912 John st,87282728282
如果您注意到 :
9191,9827 Park st,999999999 and 9191,9827 Park st Apt82,999999999
基于 store_id 和 phone 是相似的,但我从 file2 中选择了它,因为地址更具描述性。
store_id+phone_number
是我的复合主键来查找位置并查找重复项(store_id 足以在上面的示例中找到它,但我需要一个基于多个列值的键)
问题:
- 我需要合并多个具有相同架构但具有重复行的 CSV 文件。
- 行级合并应该具有根据行的值选择行的特定值的逻辑。就像从文件 1 中提取的电话和从文件 2 中提取的地址一样。
- 1 个或多个列值的组合将定义行是否重复。
这可以使用熊猫来实现吗?