问题标签 [dfply]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - dfply: Mutating string column: TypeError
My pandas dataframe contains a column "file" which are strings with a file path. I am trying to use dfply to mutate this column like
but I get the error
What did I do wrong? How do I do it right?
python - dfply.mutate 不适用于 pandas.to_datetime
我有一个 DataFrame
hub2['time'] = pd.to_datetime(hub2.timestamp)
有效,但是当我写
hub2 >> mutate(time=pd.to_datetime(X.timestamp))
使用https://github.com/kieferk/dfply 我得到了错误
Traceback (most recent call last):
File "<input>", line 1, in <module>
File "[...]/lib/python2.7/site-packages/pandas/util/decorators.py", line 91, in wrapper
return func(*args, **kwargs)
File "[...]/lib/python2.7/site-packages/pandas/tseries/tools.py", line 419, in to_datetime
elif isinstance(arg, ABCSeries):
File "[...]/lib/python2.7/site-packages/pandas/types/generic.py", line 9, in _check
return getattr(inst, attr, '_typ') in comp
TypeError: __nonzero__ should return bool or int, returned Call
这是为什么?
python-3.x - Python dfply 按两列打包连接数据
我需要按 2 列连接 2 个数据集。'dfply' 包中似乎没有任何功能。我想对了吗?请帮忙
python - dfply - Python - X 名称未定义
我dfply
在 python 中使用包,它模仿dplyr
R 中的包。这是我试图运行的简单代码。我以前在我的环境中加载了这个数据集“数据”,我只想为那个变量分组。
我不断得到的错误是:NameError: name 'X' is not defined
。
从包文档:
通过管道操作传递的 DataFrame 由符号 X 表示。它记录您想要采取的操作(由 Intention 类表示),但直到适当的时间才评估它们。DataFrame 上的操作被延迟。例如,可以在管道操作期间使用符号 X DataFrame 选择其中的两个列。
python - Python dfply 包 - 连接
来自 R 并尝试在 Python 中使用 dfply 包模拟 dplyr。需要一些帮助。
我在这里有两个问题,请帮忙。
- 如果这些连接列具有不同的名称,我如何连接两个数据集?
- 有没有办法让我加入更多的专栏?根据文档,我只能加入一列。
https://github.com/kieferk/dfply#joining
我喜欢 dfply 包,但它缺少关键功能。谢谢你的帮助。或者帮助我使用 Python 中的任何其他包,例如 R dplyr
python - 将 R 代码转换为 python 代码
R中的工作代码
但我想用python重写代码。我写了下面的代码,但它给我带来了错误。我正在使用 python 中可用的类似版本的 dplyr。
谁能帮我 ?
python - Python dfply:无法在多个条件下屏蔽
我是一名 R 用户,正在学习如何使用 Python's dfply
,Python 相当于 R's dplyr
。我的问题:在 dfply 中,我无法屏蔽管道中的多个条件。我寻求涉及 dfply 管道而不是多行子集的解决方案。
我的代码:
这是原始数据框df:
这是管道掩码 df2 的结果:
但是,我希望这样:
为什么不用“|” 和“~”运算符会导致“a”列是NaN或“b”列不是NaN 的行?
顺便说一句,我也试过np.logical_or()
:
但这导致了错误:
python - 如何在 Python - dfply 上使用带有startswith() 的条件语句?
我正在使用包 dfply 在 Python 上进行数据整理。
我想从数据集data_a的'FC06'创建一个新变量“a06”,这样:
- a06 = 1 如果 FC06[i] 以字符“1”开头(例如:FC06[i]=173)
- a06 = 2 如果 FC06[i] 以字符“2”开头
- a06 = NaN 如果 FC06[i] = NaN
例如,输入:
我想得到输出:
在 R 上,它将通过以下方式获得:
但我不知道如何用 Python 做到这一点。
我实现了第一个版本,只有 2 个选项:NaN 或 1,具有:
但我找不到如何根据 FC06 的第一个字符来区分结果。
(我试过这样的事情:
但没有成功:- [0] 在那里无法获取第一个字符-和/或 str() 不能与 apply 一起使用(str.startswith('1') 都不是)
有谁知道如何解决这种情况?
或者另一个在 Python 上执行此操作的包?
谢谢 !!
python - Python 相当于 dplyr 的 ifelse
我正在将代码从 R 转换为 Python,并正在寻找一些帮助,以使用dfply
语法/管道根据其他列改变新列
在这个例子中,我想从col1
if col2
is 'c' 中减去 2,否则加 4
在 RI 会做:
但 Python 似乎不喜欢这样:
我收到“无效的 __array_struct__”错误
请注意,这可以正常工作:
python - 如何使用 mask 命令包含多个参数?
我目前正在做一个机器学习项目(一个非常基础的项目),并使用 1871-2015 年的棒球数据。我想使用一组特定的年份来测试我的预测。我正在使用 dfply 包,然后使用 mask 命令取出某一年,但我需要的不仅仅是取出一年。我该怎么办?
先感谢您。
我尝试使用“或”和“|” 以及添加 () 和 []。
我希望 X.year 从 1997 年到 2015 年。