问题标签 [dfply]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
700 浏览

python - dfply: Mutating string column: TypeError

My pandas dataframe contains a column "file" which are strings with a file path. I am trying to use dfply to mutate this column like

but I get the error

What did I do wrong? How do I do it right?

0 投票
0 回答
241 浏览

python - dfply.mutate 不适用于 pandas.to_datetime

我有一个 DataFrame

hub2['time'] = pd.to_datetime(hub2.timestamp)

有效,但是当我写

hub2 >> mutate(time=pd.to_datetime(X.timestamp))

使用https://github.com/kieferk/dfply 我得到了错误

Traceback (most recent call last): File "<input>", line 1, in <module> File "[...]/lib/python2.7/site-packages/pandas/util/decorators.py", line 91, in wrapper return func(*args, **kwargs) File "[...]/lib/python2.7/site-packages/pandas/tseries/tools.py", line 419, in to_datetime elif isinstance(arg, ABCSeries): File "[...]/lib/python2.7/site-packages/pandas/types/generic.py", line 9, in _check return getattr(inst, attr, '_typ') in comp TypeError: __nonzero__ should return bool or int, returned Call

这是为什么?

0 投票
0 回答
160 浏览

python-3.x - Python dfply 按两列打包连接数据

我需要按 2 列连接 2 个数据集。'dfply' 包中似乎没有任何功能。我想对了吗?请帮忙

关于库的文档: https ://github.com/kieferk/dfply

0 投票
2 回答
954 浏览

python - dfply - Python - X 名称未定义

dfply在 python 中使用包,它模仿dplyrR 中的包。这是我试图运行的简单代码。我以前在我的环境中加载了这个数据集“数据”,我只想为那个变量分组。

我不断得到的错误是:NameError: name 'X' is not defined

从包文档:

通过管道操作传递的 DataFrame 由符号 X 表示。它记录您想要采取的操作(由 Intention 类表示),但直到适当的时间才评估它们。DataFrame 上的操作被延迟。例如,可以在管道操作期间使用符号 X DataFrame 选择其中的两个列。

0 投票
1 回答
887 浏览

python - Python dfply 包 - 连接

来自 R 并尝试在 Python 中使用 dfply 包模拟 dplyr。需要一些帮助。

我在这里有两个问题,请帮忙。

  1. 如果这些连接列具有不同的名称,我如何连接两个数据集?
  2. 有没有办法让我加入更多的专栏?根据文档,我只能加入一列。

https://github.com/kieferk/dfply#joining

我喜欢 dfply 包,但它缺少关键功能。谢谢你的帮助。或者帮助我使用 Python 中的任何其他包,例如 R dplyr

0 投票
3 回答
12342 浏览

python - 将 R 代码转换为 python 代码

R中的工作代码

但我想用python重写代码。我写了下面的代码,但它给我带来了错误。我正在使用 python 中可用的类似版本的 dplyr。

谁能帮我 ?

0 投票
2 回答
1431 浏览

python - Python dfply:无法在多个条件下屏蔽

我是一名 R 用户,正在学习如何使用 Python's dfply,Python 相当于 R's dplyr。我的问题:在 dfply 中,我无法屏蔽管道中的多个条件。我寻求涉及 dfply 管道而不是多行子集的解决方案。

我的代码:

这是原始数据框df:

这是管道掩码 df2 的结果:

但是,我希望这样:

为什么不用“|” 和“~”运算符会导致“a”列是NaN或“b”列不是NaN 的行?

顺便说一句,我也试过np.logical_or()

但这导致了错误:

0 投票
1 回答
221 浏览

python - 如何在 Python - dfply 上使用带有startswith() 的条件语句?

我正在使用包 dfply 在 Python 上进行数据整理。

我想从数据集data_a的'FC06'创建一个新变量“a06”,这样:

  • a06 = 1 如果 FC06[i] 以字符“1”开头(例如:FC06[i]=173)
  • a06 = 2 如果 FC06[i] 以字符“2”开头
  • a06 = NaN 如果 FC06[i] = NaN

例如,输入:

我想得到输出:

在 R 上,它将通过以下方式获得:

但我不知道如何用 Python 做到这一点。

我实现了第一个版本,只有 2 个选项:NaN 或 1,具有:

但我找不到如何根据 FC06 的第一个字符来区分结果。

(我试过这样的事情:

但没有成功:- [0] 在那里无法获取第一个字符-和/或 str() 不能与 apply 一起使用(str.startswith('1') 都不是)

有谁知道如何解决这种情况?

或者另一个在 Python 上执行此操作的包?

谢谢 !!

0 投票
2 回答
1193 浏览

python - Python 相当于 dplyr 的 ifelse

我正在将代码从 R 转换为 Python,并正在寻找一些帮助,以使用dfply语法/管道根据其他列改变新列

在这个例子中,我想从col1if col2is 'c' 中减去 2,否则加 4

在 RI 会做:

但 Python 似乎不喜欢这样:

我收到“无效的 __array_struct__”错误

请注意,这可以正常工作:

0 投票
1 回答
93 浏览

python - 如何使用 mask 命令包含多个参数?

我目前正在做一个机器学习项目(一个非常基础的项目),并使用 1871-2015 年的棒球数据。我想使用一组特定的年份来测试我的预测。我正在使用 dfply 包,然后使用 mask 命令取出某一年,但我需要的不仅仅是取出一年。我该怎么办?

先感谢您。

我尝试使用“或”和“|” 以及添加 () 和 []。

我希望 X.year 从 1997 年到 2015 年。