1

我使用 cummeRbund 函数findSimilar()来找到与我使用 Cuffdiff 识别的差异表达基因最相似的 10 个基因。这使用了 Jensen-Shannon 距离并产生了一个排序的基因列表,我现在想测试它的 GO 富集。该文件如下所示:

"XLOC_007917" 0
"XLOC_008881" 0.00417099861122699 
"XLOC_017692" 0.0178758082512721 
"XLOC_008901" 0.0180682577435933 
"XLOC_014267" 0.0333227735282459 
"XLOC_013408" 0.0400392521794019 
"XLOC_013497" 0.0412541820119971 
"XLOC_010554" 0.0453928603025379 
"XLOC_000570" 0.0461264880687295 
"XLOC_010786" 0.0469577467848723 

我首先手动搜索了每个最相似基因的 GO 术语,但我想做一个更可靠的分析。我正在尝试运行 Broad Institute 的 Java 应用程序 GSEA。

我制作了我的排名列表文件格式 (*.rnk),现在我必须选择一个基因集数据库。

我正在研究一种海绵物种,所以我不能使用已经提供的数据库。

如何创建自己的基因集数据库?它应该是什么样子?

4

2 回答 2

0

辅助组装后我的策略有所不同。我使用 Cufflinks 提取新发现的基因的序列,找到 CDS,进行 BLAST,并获得 GO 术语。另一种选择是使用已知 ID 的基因并使用 gProfiler 进行富集分析。例如,您可以免费试用 Blast2go 来进行分析。您可以在本地安装数据库,Blast 会更快。您可以使用 Blast2go 进行富集分析。您还可以使用安装 Galaxy 实例并从他们的工具棚存储库中获取 Blast2go。

于 2015-06-17T22:13:51.583 回答
0

要使其与 GSEA 一起使用,您需要在文件的第一列中使用正式的人类基因符号作为基因标识符。确保每个基因在您的排名列表中只出现一次也是一个好主意。另请注意,在预排序模式中,GSEA 始终按降序对您的输入进行排序。

于 2017-12-02T05:53:47.350 回答