我dfply
在 python 中使用包,它模仿dplyr
R 中的包。这是我试图运行的简单代码。我以前在我的环境中加载了这个数据集“数据”,我只想为那个变量分组。
import dfply as dp
data['CO_SPORTELLO']=data['CO_SPORTELLO'].apply(lambda x: str(x))
data=(data >>
dp.group_by(X.CO_SPORTELLO))
我不断得到的错误是:NameError: name 'X' is not defined
。
从包文档:
通过管道操作传递的 DataFrame 由符号 X 表示。它记录您想要采取的操作(由 Intention 类表示),但直到适当的时间才评估它们。DataFrame 上的操作被延迟。例如,可以在管道操作期间使用符号 X DataFrame 选择其中的两个列。
diamonds >> select(X.carat, X.cut) >> head(3)
carat cut
0 0.23 Ideal
1 0.21 Premium
2 0.23 Good