作为预处理步骤,我需要从包含100 个不同样本(列)的大约 60k 个基因的批量 RNA-seq 数据中选择前 1000 个高度可变的基因(行)。列值已经包含三次的平均值。该表包含 FPKM 中的标准化值(注意:我无权访问原始计数,也无法使用常见的 R 包,因为这些包将原始计数作为输入。) 在这种情况下,选择前 1000 个可变基因?
我尝试使用rowSums()函数过滤掉基因(以删除 rowsums 值较低的基因)并将其从 60k 基因缩小到 10K 基因,但我不确定这是否是选择高度可变基因的正确方法。任何输入表示赞赏。