我有一个数据集,在这里缩写:
SNP chr BP log10 PPA
rs10068 17 56555 1.16303 0.030
rs10032 17 56561 26.364 0.975
rs10354 17 34951 4.3212 0.626
rs10043 17 20491 0.00097 0.006
rs10457 17 69572 -0.38403 0.014
rs10465 17 69872 8.19547 0.927
其中 PPA 是关联的后验概率。由于我有一些高 log10 值 (>6),我想确定这些区域周围的可信区间,以确定它们的大小。
为此,我首先想识别 log10 > 6 的 SNP,这很简单,使用子集。
newdata <- subset(data, log10 > 6)
但是,我还想在这个子集中包括物理上靠近这些先导 SNP 的 SNP,使用 BP 500 +/- 先导 SNP 的 BP(log10>6)。在这里,我不确定最好的方法。这是我可以研究的,subset
还是我应该首先在我的原始数据中识别这些主要 SNP,然后从那里子集?
一旦我隔离了这些区域,我就可以继续前进。
任何建议表示赞赏!