问题标签 [data-munging]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
150 浏览

r - 数据清理 - 转换为 tidyverse

我很好奇以下代码是否可以转换为 tidyverse 代码。我已经尝试过 dplyr::mutate 并且无法让它正常工作。

0 投票
1 回答
84 浏览

r - 将系数正确绑定到汇总表

我有一个glm模型和一个汇总数据集,需要我将coefficients,standard errorp.value从模型的摘要绑定到汇总数据集。例如,我使用了mtcars数据集。我添加columns到最终的联合数据集中以模拟我想要coefficients, standard errors, and p-values放置的位置。对于模型中未显示的基本值,我想1在. 我怎么能做到这一切?coefficientsintercept, standard errors and p-value

0 投票
0 回答
47 浏览

r - 数据调整挑战。如何将正确的系数加入汇总表中的正确观察值

在我开始之前,可以在这里找到这个问题的基本答案: 正确绑定系数到汇总表

这个问题的不同之处在于我需要根据放置结的位置将正确的系数正确连接到汇总表中的正确位置。我使用该I(pmax(0, variable - knot))技术来放置我的样条线。最终结果是每个变量的唯一值表、汇总度量和正确的模型统计信息(请参阅下面示例代码中的最终(尚未完成)表)。

挑战在于采用表中的I(pmax(0, hp -100))术语model_summary并将估计值、std.error、statistic 和 p.value 正确加入到summary_table<= 100 中的每个 hp 观察值中,此外还将其他hp估计统计量加入到 hp 观察值中summary_table即 > 100。

0 投票
6 回答
1417 浏览

r - 如何在 R 中做一种混合值

我有一个数据框,我想按一列而不是下一列进行排序(如果可能,使用 tidyverse)。

我检查了以下地址,但解决方案似乎不起作用。

订购“混合”向量(带字母的数字)

示例代码:

这并没有给我想要的东西:

级别列的顺序如下:

variable level channel DIR channel EA channel IA level 1000 level 500 level 750

我需要他们:

variable level channel DIR channel EA channel IA level 500 level 750 level 1000

真实数据集中有多个不同的“变量”,其中一半需要按数字顺序排序,一半需要按字母顺序排序。有谁知道如何做到这一点?

0 投票
0 回答
32 浏览

r - r 中是否有“填充”或“填充”命令?

是否可以根据其他两列中的条件“填充” NA 值?

在这里可以找到类似的答案: Replace missing values (NA) with most recent non-NA by group

这个问题是不同的,因为我需要根据另一列的值和所述列中的值以上的值进行填充。说明如下。

我有一个数据框,我需要一些东西来查看上面的值和旁边的值以及上面的值来评估。这个过程应该是这样的:x = 不为空的值。

如果 x 以上的值为 null 并且

x 旁边的值与 x 的值上方的值相同 then

填上。

这是一些示例代码mtcars

见下图。我想23.5填满,直到“cyl”列中的值发生变化。所以,

如果上面的值为 NULL()

和 cyl 值 = 上面的 cyl 值,

填上。

在此处输入图像描述

这在R中可能吗?

0 投票
5 回答
8675 浏览

python - python - 如何使用python中的表格提取pdf文件中存在的多个表格?

如果 pdf 文件中只有一个表,则可以使用代码简单地提取该表

但是,如果 pdf 文件中存在多个表。我无法提取这些表。因为它只提取第一个表。

0 投票
2 回答
574 浏览

r - 转置或收集具有多个键和值的宽到长数据帧

我正在尝试将一个广泛的数据集转换为一个长而整洁的数据集。我经常使用这个tidyr::gather()函数来完成这类任务,只是现在我有一个非常奇怪的数据集。

以下是我的一个小版本。正如您可以想象的那样,__1它们后面的列会__16在我的真实数据框中重复直到数字或其他内容。这可以用tidyrdplyr工具修复吗?

对于可重复性:

具有所需的输出:

0 投票
3 回答
63 浏览

r - 从未格式化的日期字符向量中提取年份

我有一个字符向量,它表示无格式日期中的覆盖年份,它像这样:

我想知道如何将这些列转换为每个观察所代表的年份。每行都有相同的开始日期和结束日期(1/1 和 31/12)。

0 投票
1 回答
45 浏览

python - 如何矢量化熊猫中每个 ID# 的函数

这种方法是时间/cpu 密集型的,必须有更好的方法!有人可以帮我在不使用循环的情况下对以下代码进行矢量化吗?基本上,我有一个 df,每个主题都有多行,每一行都有一个值。我想添加一列,显示每个主题的最高值(主题的每一行都相同)。

0 投票
1 回答
915 浏览

python - Python Pandas:使用函数的 fillna / bfill

我从库存管理系统中检索了几个项目的库存变动:

为了进行正确的分析,我创建了一个连续的日期序列

现在,我需要为每个项目填写库存列中的 nan 值groupby(itemid)。我可以对每个组使用 ffill 来填充第三行的值,但需要根据(第一个非 nan 股票值)-(该索引处的余额值)的函数来填充每个组。

例如,索引 0 的 bfill 应该是(索引 2 处的股票级别)-(索引 2 处的余额)。

也就是说,我要找的结果是

如何根据第一个非 nan 值索引处的函数回填每个项目组?