问题标签 [r-factor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 按因子和函数对数据帧行进行分组 - 输出完整的原始数据帧行
我的第一篇文章,我对 R 很陌生,所以这可能是一个 lob。不过,我已经到处寻找解决方案,所以我终于发帖寻求帮助。如果我需要澄清或提供更多信息,请告诉我。
我有一个大数据框,如下所示:
如何按第三列 (name2) 对数据进行分组,找到max()
numReads 的值,并维护关联的长度值?
我的理想输出将是上面的数据,其中包含与“Tdrd1”相关联的两行不包含该因子水平的最大值(具有 8124 和 8102 值的行)。
我试过tapply()
,by()
和aggregate()
. 他们都不能为我提供正确的输出。
提前致谢。
在比预期快得多的评论后进行编辑。谢谢!
理想的示例结果如下所示
所以看起来我在这里有两个问题。第一个是根据一个因素对数据进行分组。第二个是如何在组上计算一个函数,但在计算出所选函数后输出整行。
我喜欢聚合()后跟合并()的想法。但是,merge() 函数如何知道原始行的哪一行根据公因子水平从哪个行获取“长度”值?
数据是基于转录注释的基因表达数据的快照。我正在尝试为关联的“name2”选择表达最高的成绩单(以 numReads 而言)。我需要下游标准化的长度数据。
在尝试使用 ROLO 非常有用的建议后进行编辑。再次感谢!
还要感谢 Chase 和 daroczig 的帮助
因此,我尝试使用 ddply() 方法将我的数据帧按“name2”拆分,按读取次数降序排序,然后选择第一行。这有效地为我提供了每个组的最大“name2”值,并保留了我所有的原始信息,尤其是长度。
不幸的是,我试图在 > 34,000 行的数据框中执行此操作。它适用于约 1000 行,甚至约 5000 行,但是当我将整个数据集提供给它时会崩溃。
我尝试使用 .parallel 选项,但失败并出现以下错误:
我还尝试使用 .progressbar 选项来监控操作。进度条达到 100%,但操作永远不会完成。
关于如何将此操作应用于我的完整数据集的任何想法?
r - R中按因子着色图
我正在制作两个变量的散点图,并希望通过因子变量为点着色。这是一些可重现的代码:
这一切都很好,但是我怎么知道什么因素被染成了什么颜色?
r - R中选择哪个级别是lm回归中因子的基本类别的最佳方法
假设我想使用lm
和 afactor
作为右手边的变量来运行回归。选择因子中的哪个级别是基本类别(为避免多重共线性而被排除的类别)的最佳方法是什么。请注意,我对排除截距不感兴趣,因为我有很多因素。
我还想要一个基于公式的解决方案,而不是直接作用于 data.frame 的解决方案,尽管如果您认为您有一个非常好的解决方案,请也发布它。
我的解决方案是:
遗漏的类别 bylm
是因子中的第一个级别,因此这只是重新排序级别,以便指定的级别是第一个级别,base_cat()
其余的放在后面。
还有其他想法吗?
r - 找到序数中位数的惯用方法
我需要在 R 中找到一个序数(即有序因子)的中位数。
我在标准库中找不到执行此操作的方法,因此我想出了以下笨拙的解决方案:
在 R 中解决这个问题的惯用方法是什么?
r - 总结数据框中的因素
我的数据集如下:http ://dl.dropbox.com/u/822467/Data.csv
我的情况是这样的。我有一系列问题(总共 27 个),其中的响应本质上是二元的。0=否,1=是,999=缺失。
我的第一个问题是如何将所有列变成因子。我可以一个一个地使用它们,as.factors
但这需要很长时间。
我的第二个问题是我需要一个摘要,其中问题作为标题,是和否作为第一列,并且单元格填充了每个问题的是和否的频率。
我还需要另一个带有 %. 非常感谢我能得到的任何帮助。我查看了 Hmisc 的包总结和总结等无济于事。
r - R用因子和水平对数据进行分组
我正在尝试制作一个频率表,将值分组到有限数量的箱中。
说我有数据
我可以制作一个频率表,使其显示所有空单元格,如下所示:
我不想显示每个可能值的频率,而是想对值进行>5
分类,以便表上的级别是:0, 1, 2, 3, 4, 5, and >5
。
我怎样才能做到这一点?
arrays - 使用数组结果作为原始数据帧的乘数
对于给定的数据框,我想将数组的值乘以数据框的一列。数据框由行组成,包含名称、数值和两个因子值:
可以使用以下命令生成此数据帧:
此外,我们有一个从数据框派生的矩阵(在更复杂的情况下,这将是一个数组)。该矩阵包含属于特定类别的所有合约的总价值(以 m/f 和 A/B/C 为特征):
目标是通过使用分配给矩阵中每个类别的相应值来乘以 DF$credit 中的值,例如,DF 中第一行的值 10 将乘以 40(由 m 和 A 定义的类别)。
结果将如下所示:
如果可能的话,我想使用 R 基础包来执行此操作,但我愿意接受任何可以很好地工作的有用解决方案。
r - 因子、水平和原始值
我想将变量写入现有矩阵的f
某些元素 ( ) 中。假设是一个因素:index
m
f
使用
没有给出期望的结果,因为它将标签('1'和'2')放入m
而不是原始值('0'和'3')。因此,我用
相反,效果很好。
但在我的情况下,f
并不总是一个因素,但也可以是数字
我是否必须像这样检查它
还是有一种“通用”方式将 的“真实”值f
放入矩阵m
中,而与 的类型无关f
?
提前致谢!
PS:背景是SVM模型训练的f
结果f <- predict(mymodel, Xnew)
,可以是分类模型(然后是因子)或回归模型(然后是数字)。我确实知道模型的类型,但上面的 if 子句对我来说似乎有点不方便。model
model <- svm(Xtrain, Ytrain)
f
f
r - 按 NA 水平对因子进行子集
我在 R 中有一个因素,具有 NA 级别。
如何按<NA>
级别子集该因素?我试过的两种方法都不起作用。
r - 如何将 int 向量附加到因子?
我有一个称为矩阵的矩阵,如下所示:
我得到两个向量,id 和强度:
我想使用 append 将这两个向量相加:
但是,当我这样做时,我得到了这个结果:
R 从 idVector 中创建了一个 class = 因子,当我将 intVector 附加到它时,它不会将它附加到标签上。如何将 int 向量附加到因子?
下面是可重现的代码,我只给出了 dput(head(matrix,4)) 的问题,因为它给出了很多的所有 id,我给出了向量的 dput(head(matrix,4)) 。