问题标签 [dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5467 浏览

r - as.data.frame of table() to summarize frequencies

In R, I'm looking for a memory-efficient way to create a summary of tabular data as follows.

Take for example the data.frame foo which I've used table() to summarize, followed by as.data.frame() to obtain the frequency counts.

This results in the following frequency count for bar

The problem I'm running into is when there are many levels of x and y, it starts using up significant amounts of memory >64 GB. I was wondering if there was an alternative way of doing this kind of frequency count. As a first step, I set stringsAsFactors=F, however this doesn't completely solve the problem.

0 投票
4 回答
9340 浏览

r - 从 data.frame 命令的列表中指定列名

我有一个列表cols,其中包含列名:

cols <- c('Column1','Column2','Column3')

我想重现此命令,但调用列表:

data.frame(Column1=rnorm(10))

这是我尝试时会发生的情况:

> data.frame(cols[1]=rnorm(10))

Error: unexpected '=' in "data.frame(I(cols[1])="

如果我换成or cols[1],也会发生同样的事情。I()eval()

如何将向量中的那个项目输入到data.frame()命令中?

更新:

对于某些背景,我定义了一个函数calc.means(),它接受一个数据框和一个变量列表,并执行一个大而复杂的 ddply 操作,在变量指定的级别进行汇总。

我试图用该命令做的是将聚合级别返回到最顶层,在每一步data.frame()重新运行并使用将结果粘合到另一个上。我需要添加具有“全部”值的虚拟列,以使 rbind 正常工作。calc.means()rbind()

基本上,我正在将类似滚动cast的边距功能添加到 ddply 中,并且我不想为每次运行重新输入列名。这是完整的代码:

0 投票
2 回答
754 浏览

list - 改进我的代码以折叠 data.frames 列表

亲爱的 StackOverFlowers(简称花),

我有一个 data.frames (walk.sample) 列表,我想将其折叠成一个(巨大的)data.frame。在折叠时,我想标记(添加另一列)哪些行来自列表的哪个元素。这就是我到目前为止所得到的。

这是需要折叠/堆叠的 data.frame。

我编写了一个函数来添加一个列,该列表示行来自哪个元素,然后将其附加到现有的data.frame。

我很好奇这是否可以通过 do.call() 或其他更通用的函数更优雅地完成?

0 投票
2 回答
22298 浏览

r - 摆脱 R 中具有重复属性的行

我有一个大数据框,其中包含以下列:

该数据帧的每一行对应一个条目。在某些ID的数据框中,存在几个条目(行)。我想摆脱那些多行(显然其他属性对于相同的 ID 会有所不同)。或者换个说法:我只希望每个 ID 有一个条目(行)。

当我unique在 ID 列上使用时,我只收到级别(或每个唯一 ID),但我也想保留其他属性。我尝试过使用apply(x,2,unique(data$ID)),但这也不起作用。

0 投票
3 回答
73150 浏览

r - R:如何替换 data.frame 的元素?

我正在尝试用“NULL”替换包含“#N/A”的data.frame的元素,但遇到了问题:

[<-.data.frame( , list, value = "NULL")中的错误*tmp*:新列将在现有列之后留下孔

我认为问题在于我的索引将 data.frame 视为向量,但是替换函数以某种方式对其进行了不同的处理,但我不确定问题是什么?

0 投票
7 回答
16220 浏览

r - 在数据框中进行的最后一次观察?

我希望为我正在处理的数据集实施“最后一次观察结转”,该数据集的末尾有缺失值。

这是一个简单的代码(后面的问题):

现在这对简单的向量很有用。但是,如果我在哪里尝试在数据框中使用它:

它将我的数据框变成一个字符矩阵。

你能想出一种在 data.frame 上做 LOCF 而不把它变成矩阵的方法吗?(我可以使用循环等来纠正混乱,但希望有一个更优雅的解决方案)

0 投票
2 回答
25549 浏览

r - 如何根据另一行重新排序矩阵、data.frame 或向量的行

如何重新排序 test2 以使行的顺序与 test1 相同?例如

我尝试使用 reorder 函数: reorder (test1, test2) 但我无法找出正确的语法。我看到重新排序需要一个向量,而我在这里使用矩阵。我的真实数据有一​​个字符向量和另一个作为 data.frame。我认为对于上面的这个例子来说,数据结构并不重要,我只需要语法方面的帮助,并且可以使其适应我的实际问题。

0 投票
2 回答
1589 浏览

r - 问题。在 data.frame 上使用 lappy 并创建带有输出的新变量

我在 data.frame 中有 13 个定量变量(称为“UNCA”)。

这些变量被命名为 q01_a、q01_b、...q01_m。

我想创建 13 个具有相同值但被编码为因子的新变量。

我想将这 13 个新变量命名为 q01_a.F、q01_b.F、...q01_m.F。

任何帮助将不胜感激!

0 投票
1 回答
696 浏览

r - 问题。创建满足所有 4 个条件的新数据集

我想创建一个满足以下四个条件的新数据集。

谢谢!

0 投票
18 回答
708321 浏览

r - 将 data.frame 列从因子转换为字符

我有一个数据框。让我们叫他bob

我想连接这个数据框的行(这将是另一个问题)。但看:

Bob的列是因子。因此,例如:

我开始不明白这一点,但我想这些是指数列(王宫廷)的因素水平bob?不是我需要的。

奇怪的是,我可以通过bob手工的列,并做

效果很好。而且,在一些输入之后,我可以得到一个 data.frame,它的列是字符而不是因子。所以我的问题是:我怎样才能自动做到这一点?如何将具有因子列的 data.frame 转换为具有字符列的 data.frame 而无需手动遍历每一列?

额外的问题:为什么手动方法有效?