问题标签 [dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何按行拆分数据帧,然后处理块?
我有一个包含几列的数据框,其中之一是一个称为“站点”的因素。如何将数据框拆分为具有唯一值“站点”的行块,然后使用函数处理每个块?数据如下所示:
我想为每个站点创建一个year
vs图。peak
r - 根据名称选择变量(简单的正则表达式)
我想包含暗示我应该对它们做什么的变量名。我想象一个数据框“调查”。
现在我想对包含 likert 的所有变量做某些事情,对包含 bern等变量的其他事情做一些事情。
如何在 R 中做到这一点?
r - 对于每个组,汇总数据框中所有变量的平均值(ddply?拆分?)
一周前,我会手动完成此操作:按组将数据帧子集到新数据帧。对于每个数据帧计算每个变量的平均值,然后 rbind。很笨重...
现在我已经了解了split
and plyr
,我想一定有更简单的方法可以使用这些工具。请不要证明我错了。
我正在玩弄两者,ddply
但我无法制作我想要的东西 - 即每个组的一张这样的桌子
也许d_ply
有些odfweave
输出会起作用。非常感谢您的意见。
ps 我注意到 data.frame 将 rnorm 转换为我的 data.frame 中的因子?我怎样才能避免这种情况 - I(rnorm(100) 不起作用,所以我必须像上面那样转换为数字
r - 尝试遍历数据框并引用多个字段
我有一个包含地址、城市、州、邮编实体的数据框。从那里开始,我尝试使用 Yahoo API 对每个地址进行地理编码。
我基于 O'Reilly 的 Data Mashups using R Tutorial 中的代码。原始示例采用街道地址向量并使用硬编码的城市。我正在尝试制作一个支持多个城市的动态示例。
代码的缩写版本是:
当我尝试引用 myStreet$City 和 myStreet$Address 时,我收到一个错误
除了遍历数据框 myStreets 之外,我不知道如何才能为每行仅调用一次 Yahoo API 并存储每个成员的 long/lat。
r - 在R中重塑数据框
我在重塑大型数据框时遇到了困难。而且我过去相对幸运地避免了重塑问题,这也意味着我在这方面很糟糕。
我当前的数据框看起来像这样:
我想:
我查看了 reshape 包,但我不确定如何将处理因子转换为单独的列名。
谢谢!
编辑:我尝试在我的本地机器(4GB 双核 iMac 3.06Ghz)上运行它,但它一直失败:
当我有机会时,我会尝试在我们的一台更大的机器上运行它。
r - 重新排序数据框列,同时忽略未识别的列
我认为必须有更好的方法来做到这一点。
我正在尝试重新排序数据框中的列。我有一个列表,ordered.colnames
代表新的排序 - 但有些列不存在于dataset
. 为了避免错误“ undefined columns selected
”,我将相关的切片包装在一个try()
函数中。
以下方法有效,但有更好的方法吗?
r - 在 R 中使用 Data.frames(使用 SAS 代码来描述我想要的)r
我最近大部分时间都在 SAS 工作,但不想失去对 RI 的熟悉程度,我想复制一些我做过的基本工作。如果我的 SAS 代码不完美,你会原谅我的,因为我家里没有 SAS,所以我是凭记忆做的。
在 SAS 中,我有一个大致类似于以下示例的数据集(。相当于 SAS 中的 NA)
如果上面的数据集是 work.foo,那么我可以执行以下操作。
我会得到类似的东西
然后我可以按 C 进行排序,然后使用 C 执行各种操作来创建 4 个子组。例如,我可以通过
我会按名为 work.means 的组获取变量数据,例如:
我想我也可能得到一个 . 行,但出于我的目的,我不在乎。
现在在 R 中。我有已正确读取的相同数据集,但我不知道如何在末尾添加变量(如 CC)或如何对子组执行操作(如 proc 中的 by cc 命令方法)。另外,我应该注意,我的变量不是按任何顺序命名的,而是根据它们所代表的内容命名的。
我想如果有人可以告诉我如何做上述事情,我可以将其概括为我需要做的事情。
r - 如何使用 R 在数据框的列中查找前 n% 的记录
我有一个数据集,显示了大约 20 年期间每天一次澳元兑美元的汇率。我在数据框中有数据,第一列是日期,第二列是汇率。这是数据中的一个示例:
我将如何显示这些记录的前 n%?例如,我想查看汇率在数据集中所有汇率中排名前 5% 的那些日子和汇率?
r - 将具有看不见的字符串值的新记录附加到数据帧时,看不见的因子水平会导致警告并导致 NA
我有一个数据框(14.5K 行 x 15 列),其中包含 2001 年到 2007 年的计费数据。
我将新的 2008 年数据附加到它:alltime <- rbind(alltime,all2008)
不幸的是,这会产生警告:
我的猜测是,有一些新患者的名字不在之前的数据框中,因此它不知道给这些患者提供什么级别。同样,在“推荐医生”列中出现了新的看不见的名字。
解决方案是什么?
list - rbind 列表列表中的数据帧
我有一个看起来像这样的列表:x[[state]][[year]]
. 其中的每个元素都是一个数据框,单独访问它们不是问题。
但是,我想跨多个列表 rbind 数据帧。更具体地说,我希望输出与多年来一样多的数据帧,即 rbind 每年内的所有状态数据帧。换句话说,我想将我所有的州数据逐年合并到单独的数据框中。
我知道我可以将单个列表与do.call("rbind",list)
. 但我不知道如何在列表列表中做到这一点。