7

我想下载由微阵列实验产生的基因表达数据。我对这个主题不太了解,但据我所知,行通常对应于基因,列对应于样本。理想情况下,我期望一个基因表达数据矩阵。

我一直在互联网上搜索,虽然看起来有很多地方可以下载这些数据,但当我真正下载数据时,我没有得到基因表达矩阵。有人可以让我知道是否有地方或如何以我期望的上述格式下载基因表达数据?

任何帮助表示赞赏。

4

2 回答 2

5

例如,如果您查看Gene Expression Omnibus中的此条目,其中一种文件格式是“TXT”,并且在一些元数据之后包含您要求的矩阵。

于 2012-03-23T04:46:29.107 回答
5

原则上,微阵列数据可以表示(请原谅双关语)作为矩阵,其中样本作为列,行作为基因。在实践中,为实验的原始数据导出这样的表示要复杂一些。如果你只是得到一个预处理的数据集,你几乎不能保证原始数据的处理方式可以与其他实验相媲美,或者基础原始数据的质量足够高。

您还需要高质量的元数据才能从数据矩阵中获得任何意义。样品的生物学条件和来源是什么?使用的特定阵列上的探针对应于哪些基因?(请注意,9890_at 是“probeset id”,特定序列设计的分子探针的唯一标识符,然后需要将其映射到基因,同一基因的不同探针不会给出完全相同的响应。)

因此,除了处理过的数据矩阵之外,公共微阵列数据库还提供了许多附加信息。除了已经提到的GEO ,我会推荐ArrayExpress,我认为它具有更好的搜索界面。

许多人选择使用微阵列数据的工具是用于统计编程语言R的bioconductor软件套件。

Bioconductor 提供 API 以从两个存储库下载原始数据以及随附的元数据,请参阅GEO bioc 包ArrayExpress bioc 包

与大多数 bioconductor 软件一样,这两个软件包都带有出色的“小插图”,介绍了该软件: GEO bioc vignetteArrayexpress bioc vignette

这些小插曲还应该为您提供获取原始数据并从原始数据派生“Esets”(表达式集)的示例。此时,您可以访问 bioconductor Eset 对象中的基因表达矩阵,并且您有一个对象和 API 来查询必要的元数据。

请注意,有不同类型的微阵列。我建议从 Affymetrix 数组中的数据开始,因为它们可能具有最直接的分析 API。

于 2012-03-23T15:00:52.573 回答