问题标签 [dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
15 回答
817704 浏览

r - 如何按组对变量求和

我有一个包含两列的数据框。第一列包含“First”、“Second”、“Third”等类别,第二列包含代表我从“Category”中看到特定组的次数的数字。

例如:

我想按类别对数据进行排序并将所有频率相加:

我将如何在 R 中做到这一点?

0 投票
9 回答
353761 浏览

r - 按逻辑条件过滤 data.frame 行

我想data.frame根据逻辑条件从 a 中过滤行。假设我有像这样的数据框

我想要的是获得一个看起来相同但只有一个 cell_type 的数据的新数据框。例如,子集/选择包含单元格类型“hesc”的行:

或细胞类型“bj 成纤维细胞”或“hesc”:

有什么简单的方法可以做到这一点?

我试过了:

如果原始数据框称为“expr”,但它以错误的格式给出结果,如您所见。

0 投票
9 回答
408639 浏览

r - 对于 R 数据框中的每一行

我有一个数据框,对于该数据框中的每一行,我必须进行一些复杂的查找并将一些数据附加到文件中。

dataFrame 包含从用于生物学研究的 96 个孔板中选择的孔的科学结果,所以我想做类似的事情:

在我的程序世界中,我会做类似的事情:

这样做的“R方式”是什么?

0 投票
12 回答
253636 浏览

r - 快速读取非常大的表作为数据框

我有非常大的表(3000 万行),我想将它们作为数据帧加载到 R 中。 read.table()有很多方便的功能,但似乎实现中有很多逻辑会减慢速度。就我而言,我假设我提前知道列的类型,该表不包含任何列标题或行名,并且没有任何我不得不担心的病态字符。

我知道在表格中作为列表阅读scan()可以非常快,例如:

但是我将其转换为数据帧的一些尝试似乎将上述性能降低了 6 倍:

有没有更好的方法来做到这一点?或者很可能完全不同的方法来解决这个问题?

0 投票
7 回答
166850 浏览

r - R中数据框中的条目数

我正在寻找以下数据框的计数:

相信的孩子的数量。我会用什么命令来得到这个?

(实际的数据框要大得多。我刚刚给了你前四行......)

谢谢!

0 投票
2 回答
1042 浏览

r - 优化将新列添加到 data.frame 的 R 函数

我有一个功能,目前在功能模型中编程,或者想要加快它的速度,或者本着 R 的精神更多地解决问题。我有一个 data.frame,想添加一个基于信息的列,这是每个条目取决于两行。目前它看起来如下所示:

0 投票
2 回答
4302 浏览

r - 使用循环中的变量转换 R 数据帧

我正在尝试按列替换 R 数据框中的值。我想遍历数据框的给定列列表,并将所有“是”值替换为 1,将所有其他值替换为 0。

我尝试使用 transform() 和 ifelse() 函数来做到这一点,如下所示:

这段代码适用于循环外的显式列名,但使用数组它会给我以下错误:

我不知道这里出了什么问题,但问题必须与变量替换有关。

0 投票
1 回答
35813 浏览

xml - 如何将 XML 数据转换为 data.frame?

我正在尝试学习 R 的XML包。我正在尝试从 books.xml 示例 xml 数据文件创建一个 data.frame。这是我得到的:

这些 xpathSApply 中的每一个都没有让我接近我的意图。应该如何朝着一个格式良好的 data.frame 前进?

0 投票
3 回答
25765 浏览

r - 在 R 数据框中生成交互变量

除了 for 循环之外,有没有一种方法可以在 R 数据框中生成新变量,这将是现有变量之间所有可能的 2 向交互?即假设具有三个数值变量 V1、V2、V3 的数据框,我想生成以下新变量:

使用 for 循环的示例:

0 投票
2 回答
324 浏览

r - 每个 NA 值仅显示一行

在我的脚本中的某个时刻,我喜欢查看我的数量missing valuesdata.frame显示它们。就我而言,我有:

它工作得很好。但是,最后一个命令显然给了我整个data.frame位置NAis TRUE,例如:

有一个大框架和很多看起来很乱的NA。对我来说重要的是仅在出现 NA 的地方,即哪个国家(在第二列中)在第三列中有缺失值。

那么我怎样才能只为每个国家显示一行呢?

它应该看起来像这样: