问题标签 [dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
19965 浏览

r - 如何按行拆分数据帧,然后处理块?

我有一个包含几列的数据框,其中之一是一个称为“站点”的因素。如何将数据框拆分为具有唯一值“站点”的行块,然后使用函数处理每个块?数据如下所示:

我想为每个站点创建一个yearvs图。peak

0 投票
3 回答
3168 浏览

r - 根据名称选择变量(简单的正则表达式)

我想包含暗示我应该对它们做什么的变量名。我想象一个数据框“调查”。

现在我想对包含 likert 的所有变量做某些事情,对包含 bern变量的其他事情做一些事情。

如何在 R 中做到这一点?

0 投票
6 回答
13850 浏览

r - 对于每个组,汇总数据框中所有变量的平均值(ddply?拆分?)

一周前,我会手动完成此操作:按组将数据帧子集到新数据帧。对于每个数据帧计算每个变量的平均值,然后 rbind。很笨重...

现在我已经了解了splitand plyr,我想一定有更简单的方法可以使用这些工具。请不要证明我错了。

我正在玩弄两者,ddply但我无法制作我想要的东西 - 即每个组的一张这样的桌子

也许d_ply有些odfweave输出会起作用。非常感谢您的意见。

ps 我注意到 data.frame 将 rnorm 转换为我的 data.frame 中的因子?我怎样才能避免这种情况 - I(rnorm(100) 不起作用,所以我必须像上面那样转换为数字

0 投票
2 回答
10193 浏览

r - 尝试遍历数据框并引用多个字段

我有一个包含地址、城市、州、邮编实体的数据框。从那里开始,我尝试使用 Yahoo API 对每个地址进行地理编码。

我基于 O'Reilly 的 Data Mashups using R Tutorial 中的代码。原始示例采用街道地址向量并使用硬编码的城市。我正在尝试制作一个支持多个城市的动态示例。

代码的缩写版本是:

当我尝试引用 myStreet$City 和 myStreet$Address 时,我收到一个错误

除了遍历数据框 myStreets 之外,我不知道如何才能为每行仅调用一次 Yahoo API 并存储每个成员的 long/lat。

0 投票
5 回答
33608 浏览

r - 在R中重塑数据框

我在重塑大型数据框时遇到了困难。而且我过去相对幸运地避免了重塑问题,这也意味着我在这方面很糟糕。

我当前的数据框看起来像这样:

我想:

我查看了 reshape 包,但我不确定如何将处理因子转换为单独的列名。

谢谢!

编辑:我尝试在我的本地机器(4GB 双核 iMac 3.06Ghz)上运行它,但它一直失败:

当我有机会时,我会尝试在我们的一台更大的机器上运行它。

0 投票
1 回答
923 浏览

r - 重新排序数据框列,同时忽略未识别的列

我认为必须有更好的方法来做到这一点。

我正在尝试重新排序数据框中的列。我有一个列表,ordered.colnames代表新的排序 - 但有些列不存在dataset. 为了避免错误“ undefined columns selected”,我将相关的切片包装在一个try()函数中。

以下方法有效,但有更好的方法吗?

0 投票
2 回答
842 浏览

r - 在 R 中使用 Data.frames(使用 SAS 代码来描述我想要的)r

我最近大部分时间都在 SAS 工作,但不想失去对 RI 的熟悉程度,我想复制一些我做过的基本工作。如果我的 SAS 代码不完美,你会原谅我的,因为我家里没有 SAS,所以我是凭记忆做的。

在 SAS 中,我有一个大致类似于以下示例的数据集(。相当于 SAS 中的 NA)

如果上面的数据集是 work.foo,那么我可以执行以下操作。

我会得到类似的东西

然后我可以按 C 进行排序,然后使用 C 执行各种操作来创建 4 个子组。例如,我可以通过

我会按名为 work.means 的组获取变量数据,例如:

我想我也可能得到一个 . 行,但出于我的目的,我不在乎。

现在在 R 中。我有已正确读取的相同数据集,但我不知道如何在末尾添加变量(如 CC)或如何对子组执行操作(如 proc 中的 by cc 命令方法)。另外,我应该注意,我的变量不是按任何顺序命名的,而是根据它们所代表的内容命名的。

我想如果有人可以告诉我如何做上述事情,我可以将其概括为我需要做的事情。

0 投票
4 回答
34087 浏览

r - 如何使用 R 在数据框的列中查找前 n% 的记录

我有一个数据集,显示了大约 20 年期间每天一次澳元兑美元的汇率。我在数据框中有数据,第一列是日期,第二列是汇率。这是数据中的一个示例:

我将如何显示这些记录的前 n%?例如,我想查看汇率在数据集中所有汇率中排名前 5% 的那些日子和汇率?

0 投票
7 回答
96797 浏览

r - 将具有看不见的字符串值的新记录附加到数据帧时,看不见的因子水平会导致警告并导致 NA

我有一个数据框(14.5K 行 x 15 列),其中包含 2001 年到 2007 年的计费数据。

我将新的 2008 年数据附加到它:alltime <- rbind(alltime,all2008)

不幸的是,这会产生警告:

我的猜测是,有一些新患者的名字不在之前的数据框中,因此它不知道给这些患者提供什么级别。同样,在“推荐医生”列中出现了新的看不见的名字。

解决方案是什么?

0 投票
2 回答
24509 浏览

list - rbind 列表列表中的数据帧

我有一个看起来像这样的列表:x[[state]][[year]]. 其中的每个元素都是一个数据框,单独访问它们不是问题。

但是,我想跨多个列表 rbind 数据帧。更具体地说,我希望输出与多年来一样多的数据帧,即 rbind 每年内的所有状态数据帧。换句话说,我想将我所有的州数据逐年合并到单独的数据框中。

我知道我可以将单个列表与do.call("rbind",list). 但我不知道如何在列表列表中做到这一点。