问题标签 [r-factor]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3824 浏览

r - 按因子和函数对数据帧行进行分组 - 输出完整的原始数据帧行

我的第一篇文章,我对 R 很陌生,所以这可能是一个 lob。不过,我已经到处寻找解决方案,所以我终于发帖寻求帮助。如果我需要澄清或提供更多信息,请告诉我。

我有一个大数据框,如下所示:

如何按第三列 (name2) 对数据进行分组,找到max()numReads 的值,并维护关联的长度值?

我的理想输出将是上面的数据,其中包含与“Tdrd1”相关联的两行不包含该因子水平的最大值(具有 8124 和 8102 值的行)。

我试过tapply(),by()aggregate(). 他们都不能为我提供正确的输出。

提前致谢。

在比预期快得多的评论后进行编辑。谢谢!

理想的示例结果如下所示

所以看起来我在这里有两个问题。第一个是根据一个因素对数据进行分组。第二个是如何在组上计算一个函数,但在计算出所选函数后输出整行。

我喜欢聚合()后跟合并()的想法。但是,merge() 函数如何知道原始行的哪一行根据公因子水平从哪个行获取“长度”值?

数据是基于转录注释的基因表达数据的快照。我正在尝试为关联的“name2”选择表达最高的成绩单(以 numReads 而言)。我需要下游标准化的长度数据。

在尝试使用 ROLO 非常有用的建议后进行编辑。再次感谢!

还要感谢 Chase 和 daroczig 的帮助

因此,我尝试使用 ddply() 方法将我的数据帧按“name2”拆分,按读取次数降序排序,然后选择第一行。这有效地为我提供了每个组的最大“name2”值,并保留了我所有的原始信息,尤其是长度。

不幸的是,我试图在 > 34,000 行的数据框中执行此操作。它适用于约 1000 行,甚至约 5000 行,但是当我将整个数据集提供给它时​​会崩溃。

我尝试使用 .parallel 选项,但失败并出现以下错误:

我还尝试使用 .progressbar 选项来监控操作。进度条达到 100%,但操作永远不会完成。

关于如何将此操作应用于我的完整数据集的任何想法?

0 投票
6 回答
282776 浏览

r - R中按因子着色图

我正在制作两个变量的散点图,并希望通过因子变量为点着色。这是一些可重现的代码:

这一切都很好,但是我怎么知道什么因素被染成了什么颜色?

0 投票
1 回答
2093 浏览

r - R中选择哪个级别是lm回归中因子的基本类别的最佳方法

假设我想使用lm和 afactor作为右手边的变量来运行回归。选择因子中的哪个级别是基本类别(为避免多重共线性而被排除的类别)的最佳方法是什么。请注意,我对排除截距不感兴趣,因为我有很多因素。

我还想要一个基于公式的解决方案,而不是直接作用于 data.frame 的解决方案,尽管如果您认为您有一个非常好的解决方案,请也发布它。

我的解决方案是:

遗漏的类别 bylm是因子中的第一个级别,因此这只是重新排序级别,以便指定的级别是第一个级别,base_cat()其余的放在后面。

还有其他想法吗?

0 投票
2 回答
1863 浏览

r - 找到序数中位数的惯用方法

我需要在 R 中找到一个序数(即有序因子)的中位数。

我在标准库中找不到执行此操作的方法,因此我想出了以下笨拙的解决方案:

在 R 中解决这个问题的惯用方法是什么?

0 投票
3 回答
341 浏览

r - 总结数据框中的因素

我的数据集如下:http ://dl.dropbox.com/u/822467/Data.csv

我的情况是这样的。我有一系列问题(总共 27 个),其中的响应本质上是二元的。0=否,1=是,999=缺失。

我的第一个问题是如何将所有列变成因子。我可以一个一个地使用它们,as.factors但这需要很长时间。

我的第二个问题是我需要一个摘要,其中问题作为标题,是和否作为第一列,并且单元格填充了每个问题的是和否的频率。

我还需要另一个带有 %. 非常感谢我能得到的任何帮助。我查看了 Hmisc 的包总结和总结等无济于事。

0 投票
2 回答
1866 浏览

r - R用因子和水平对数据进行分组

我正在尝试制作一个频率表,将值分组到有限数量的箱中。

说我有数据

我可以制作一个频率表,使其显示所有空单元格,如下所示:

我不想显示每个可能值的频率,而是想对值进行>5分类,以便表上的级别是:0, 1, 2, 3, 4, 5, and >5

我怎样才能做到这一点?

0 投票
3 回答
131 浏览

arrays - 使用数组结果作为原始数据帧的乘数

对于给定的数据框,我想将数组的值乘以数据框的一列。数据框由行组成,包含名称、数值和两个因子值:

可以使用以下命令生成此数据帧:

此外,我们有一个从数据框派生的矩阵(在更复杂的情况下,这将是一个数组)。该矩阵包含属于特定类别的所有合约的总价值(以 m/f 和 A​​/B/C 为特征):

目标是通过使用分配给矩阵中每个类别的相应值来乘以 DF$credit 中的值,例如,DF 中第一行的值 10 将乘以 40(由 m 和 A 定义的类别)。

结果将如下所示:

如果可能的话,我想使用 R 基础包来执行此操作,但我愿意接受任何可以很好地工作的有用解决方案。

0 投票
2 回答
6046 浏览

r - 因子、水平和原始值

我想将变量写入现有矩阵的f某些元素 ( ) 中。假设是一个因素:indexmf

使用

没有给出期望的结果,因为它将标签('1'和'2')放入m而不是原始值('0'和'3')。因此,我用

相反,效果很好。

但在我的情况下,f并不总是一个因素,但也可以是数字

我是否必须像这样检查它

还是有一种“通用”方式将 的“真实”值f放入矩阵m中,而与 的类型无关f

提前致谢!

PS:背景是SVM模型训练的f结果f <- predict(mymodel, Xnew),可以是分类模型(然后是因子)或回归模型(然后是数字)。我确实知道模型的类型,但上面的 if 子句对我来说似乎有点不方便。modelmodel <- svm(Xtrain, Ytrain)ff

0 投票
2 回答
1761 浏览

r - 按 NA 水平对因子进行子集

我在 R 中有一个因素,具有 NA 级别。

如何按<NA>级别子集该因素?我试过的两种方法都不起作用。

0 投票
1 回答
349 浏览

r - 如何将 int 向量附加到因子?

我有一个称为矩阵的矩阵,如下所示:

我得到两个向量,id 和强度:

我想使用 append 将这两个向量相加:

但是,当我这样做时,我得到了这个结果:

R 从 idVector 中创建了一个 class = 因子,当我将 intVector 附加到它时,它不会将它附加到标签上。如何将 int 向量附加到因子?

下面是可重现的代码,我只给出了 dput(head(matrix,4)) 的问题,因为它给出了很多的所有 id,我给出了向量的 dput(head(matrix,4)) 。