“r-factor”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

3824 浏览

r - 按因子和函数对数据帧行进行分组 - 输出完整的原始数据帧行

我的第一篇文章，我对 R 很陌生，所以这可能是一个 lob。不过，我已经到处寻找解决方案，所以我终于发帖寻求帮助。如果我需要澄清或提供更多信息，请告诉我。

我有一个大数据框，如下所示：

如何按第三列 (name2) 对数据进行分组，找到max()numReads 的值，并维护关联的长度值？

我的理想输出将是上面的数据，其中包含与“Tdrd1”相关联的两行不包含该因子水平的最大值（具有 8124 和 8102 值的行）。

我试过tapply(),by()和aggregate(). 他们都不能为我提供正确的输出。

提前致谢。

在比预期快得多的评论后进行编辑。谢谢！

理想的示例结果如下所示

所以看起来我在这里有两个问题。第一个是根据一个因素对数据进行分组。第二个是如何在组上计算一个函数，但在计算出所选函数后输出整行。

我喜欢聚合（）后跟合并（）的想法。但是，merge() 函数如何知道原始行的哪一行根据公因子水平从哪个行获取“长度”值？

数据是基于转录注释的基因表达数据的快照。我正在尝试为关联的“name2”选择表达最高的成绩单（以 numReads 而言）。我需要下游标准化的长度数据。

在尝试使用 ROLO 非常有用的建议后进行编辑。再次感谢！

还要感谢 Chase 和 daroczig 的帮助

因此，我尝试使用 ddply() 方法将我的数据帧按“name2”拆分，按读取次数降序排序，然后选择第一行。这有效地为我提供了每个组的最大“name2”值，并保留了我所有的原始信息，尤其是长度。

不幸的是，我试图在 > 34,000 行的数据框中执行此操作。它适用于约 1000 行，甚至约 5000 行，但是当我将整个数据集提供给它时会崩溃。

我尝试使用 .parallel 选项，但失败并出现以下错误：

我还尝试使用 .progressbar 选项来监控操作。进度条达到 100%，但操作永远不会完成。

关于如何将此操作应用于我的完整数据集的任何想法？

2011-10-10T19:38:44.393

0 投票

6 回答

282776 浏览

r - R中按因子着色图

我正在制作两个变量的散点图，并希望通过因子变量为点着色。这是一些可重现的代码：

这一切都很好，但是我怎么知道什么因素被染成了什么颜色？

r colors plot r-factor

2011-10-11T04:02:50.797

0 投票

1 回答

2093 浏览

r - R中选择哪个级别是lm回归中因子的基本类别的最佳方法

假设我想使用lm和 afactor作为右手边的变量来运行回归。选择因子中的哪个级别是基本类别（为避免多重共线性而被排除的类别）的最佳方法是什么。请注意，我对排除截距不感兴趣，因为我有很多因素。

我还想要一个基于公式的解决方案，而不是直接作用于 data.frame 的解决方案，尽管如果您认为您有一个非常好的解决方案，请也发布它。

我的解决方案是：

遗漏的类别 bylm是因子中的第一个级别，因此这只是重新排序级别，以便指定的级别是第一个级别，base_cat()其余的放在后面。

还有其他想法吗？

r lm r-factor

2011-10-19T21:29:01.830

0 投票

2 回答

1863 浏览

r - 找到序数中位数的惯用方法

我需要在 R 中找到一个序数（即有序因子）的中位数。

我在标准库中找不到执行此操作的方法，因此我想出了以下笨拙的解决方案：

在 R 中解决这个问题的惯用方法是什么？

r median r-factor ordinal

2011-10-28T04:16:20.273

0 投票

3 回答

341 浏览

r - 总结数据框中的因素

我的数据集如下：http ://dl.dropbox.com/u/822467/Data.csv

我的情况是这样的。我有一系列问题（总共 27 个），其中的响应本质上是二元的。0=否，1=是，999=缺失。

我的第一个问题是如何将所有列变成因子。我可以一个一个地使用它们，as.factors但这需要很长时间。

我的第二个问题是我需要一个摘要，其中问题作为标题，是和否作为第一列，并且单元格填充了每个问题的是和否的频率。

我还需要另一个带有 %. 非常感谢我能得到的任何帮助。我查看了 Hmisc 的包总结和总结等无济于事。

r summary r-factor

2011-11-18T09:26:54.990

0 投票

2 回答

1866 浏览

r - R用因子和水平对数据进行分组

我正在尝试制作一个频率表，将值分组到有限数量的箱中。

说我有数据

我可以制作一个频率表，使其显示所有空单元格，如下所示：

我不想显示每个可能值的频率，而是想对值进行>5分类，以便表上的级别是：0, 1, 2, 3, 4, 5, and >5。

我怎样才能做到这一点？

r grouping r-factor

2011-12-11T11:22:04.890

0 投票

3 回答

131 浏览

arrays - 使用数组结果作为原始数据帧的乘数

对于给定的数据框，我想将数组的值乘以数据框的一列。数据框由行组成，包含名称、数值和两个因子值：

可以使用以下命令生成此数据帧：

此外，我们有一个从数据框派生的矩阵（在更复杂的情况下，这将是一个数组）。该矩阵包含属于特定类别的所有合约的总价值（以 m/f 和 A/B/C 为特征）：

目标是通过使用分配给矩阵中每个类别的相应值来乘以 DF$credit 中的值，例如，DF 中第一行的值 10 将乘以 40（由 m 和 A 定义的类别）。

结果将如下所示：

如果可能的话，我想使用 R 基础包来执行此操作，但我愿意接受任何可以很好地工作的有用解决方案。

arrays r matrix dataframe r-factor

2011-12-20T23:52:07.600

0 投票

2 回答

6046 浏览

r - 因子、水平和原始值

我想将变量写入现有矩阵的f某些元素 ( ) 中。假设是一个因素：indexmf

使用

没有给出期望的结果，因为它将标签（'1'和'2'）放入m而不是原始值（'0'和'3'）。因此，我用

相反，效果很好。

但在我的情况下，f并不总是一个因素，但也可以是数字

我是否必须像这样检查它

还是有一种“通用”方式将的“真实”值f放入矩阵m中，而与的类型无关f？

提前致谢！

PS：背景是SVM模型训练的f结果f <- predict(mymodel, Xnew)，可以是分类模型（然后是因子）或回归模型（然后是数字）。我确实知道模型的类型，但上面的 if 子句对我来说似乎有点不方便。modelmodel <- svm(Xtrain, Ytrain)ff

r r-factor

2012-01-10T08:48:48.113

0 投票

2 回答

1761 浏览

r - 按 NA 水平对因子进行子集

我在 R 中有一个因素，具有 NA 级别。

如何按<NA>级别子集该因素？我试过的两种方法都不起作用。

r subset missing-data na r-factor

2012-01-26T16:22:11.280

0 投票

1 回答

349 浏览

r - 如何将 int 向量附加到因子？

我有一个称为矩阵的矩阵，如下所示：

我得到两个向量，id 和强度：

我想使用 append 将这两个向量相加：

但是，当我这样做时，我得到了这个结果：

R 从 idVector 中创建了一个 class = 因子，当我将 intVector 附加到它时，它不会将它附加到标签上。如何将 int 向量附加到因子？

下面是可重现的代码，我只给出了 dput(head(matrix,4)) 的问题，因为它给出了很多的所有 id，我给出了向量的 dput(head(matrix,4)) 。

r vector append r-factor

2012-02-27T12:08:51.263

问题标签 [r-factor]

在比预期快得多的评论后进行编辑。谢谢！

在尝试使用 ROLO 非常有用的建议后进行编辑。再次感谢！

Reference