来自 R 并尝试在 Python 中使用 dfply 包模拟 dplyr。需要一些帮助。
我在这里有两个问题,请帮忙。
- 如果这些连接列具有不同的名称,我如何连接两个数据集?
- 有没有办法让我加入更多的专栏?根据文档,我只能加入一列。
https://github.com/kieferk/dfply#joining
我喜欢 dfply 包,但它缺少关键功能。谢谢你的帮助。或者帮助我使用 Python 中的任何其他包,例如 R dplyr
来自 R 并尝试在 Python 中使用 dfply 包模拟 dplyr。需要一些帮助。
我在这里有两个问题,请帮忙。
https://github.com/kieferk/dfply#joining
我喜欢 dfply 包,但它缺少关键功能。谢谢你的帮助。或者帮助我使用 Python 中的任何其他包,例如 R dplyr
dfply 包是基于 python 中的大熊猫包构建的。它的文档主要用于指导您使用其底层功能。如果你去它的 github repo 并找到 join.py 文件,你可以看到各种连接的底层实现依赖于 pandas 的 df.merge 函数。
所以回答你的问题(希望还为时不晚):
如果这些连接列具有不同的名称,我如何连接两个数据集?
df>> inner_join(other, by=('A_c1','B_c1'))
有没有办法让我加入更多的专栏?根据文档,我只能加入一列。
df>> inner_join(other, by=[('A_c1','B_c1'),('A_c2','B_c2')])
我需要补充的一件事是,在撰写本文时,即 2018 年 10 月,您必须安装包的开发版本,其中添加了多列连接功能。