1

我有一个带有基因表达数据的 affyBatch 对象。使用没有选项的 dat <- ReadAffy() 读取数据。然后我提取我有兴趣使用的 5600 个基因,dat <- RemoveProbes(listOutProbeSets, cdfpackagename, probepackagename)

然后我使用 dat.rma <- rma(dat) 规范化表达式数据

现在我想将原始数据和 rma 标准化数据导出到 .csv 文件。检查数据我发现 exprs(dat) 的尺寸为 226576 x 30,dat.rma 的尺寸为 5600 x 30。如何提取 RAW 表达式值的 5600 x 30 矩阵?我不知道原始数据中的 226576 行是从哪里来的!

我是生物导体数据结构的初学者!很抱歉没有提供可运行的示例代码——不知道在这种情况下我会怎么做。

4

1 回答 1

0

在从原始数据到 rma 标准化数据的转换过程中,您可以将低水平探针强度值组合/汇总为探针集值(映射到基因)。这解释了为什么原始AffyBatch对象中的特征比ExpressionSet实例(由rma函数创建)中的特征更多。此外,根据您拥有的芯片,每个探针组有几个完美匹配 (PM) 和未匹配 (MM) 探针,这增加了每个探针组的探针数量。映射探针 -> 探针集在芯片定义文件中定义并自动处理。

不过还有一些额外的想法。在进行标准化之前移除探针可能不是一件好事。执行标准化时的一个假设是,你们中的大多数“基因”不会改变,因此只保留“感兴趣的那些”可能会打破这一点,这取决于“感兴趣的那些”的含义。ExpressionSet标准化后,您始终可以对 , 进行过滤:

> library(affydata)
> data(Dilution) ## gets some test data
> eset <- rma(Dilution) ## rma normalisation
> featureNames(eset)[1:10] ## gets some probesets of interest
> ps
 [1] "100_g_at"  "1000_at"   "1001_at"   "1002_f_at" "1003_s_at" "1004_at"  
 [7] "1005_at"   "1006_at"   "1007_s_at" "1008_f_at"
> dim(eset) ## full dataset
Features  Samples 
   12625        4 
> dim(eset[ps,]) ## only 10 first probesets of interest
Features  Samples 
      10        4 

希望这可以帮助。

于 2011-06-20T13:21:03.120 回答