在处理和未处理的两个条件下,我有 200 个基因的表达值 (log2),对于每个条件,我有 20 个重复。我想计算每个基因的每个条件之间的相关性,并将它们从高到低排列。
这更像是一个生物统计学问题,但我仍然认为这对于我们许多人遇到的生物学家/生物程序员来说是一个重要的问题。
数据集如下所示:
Gene UT1 UT2 T1 T2
DDR1 8.111795978 7.7606511867 7.9362235824 7.5974674936
RFC2 10.2418824097 9.7752152714 10.0085488406 9.5723427524
HSPA6 6.5850239731 6.7916563534 6.6883401632 7.3659252344
PAX8 9.2965160827 9.2031177653 9.249816924 8.667772504
GUCA1A 5.4828021059 5.3797749957 5.4312885508 5.1297319374
对于样本数据中的每个样本,我只显示了两个重复。
我正在寻找 R 或 python 中的解决方案。R 中的 cor 函数没有给我我想要的。