5

我想测试一堆形式的基因组位置:

chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569

我想看看它们是否位于 UTR 或内含子或外显子或基因间序列中。我不关心这些坐标在哪些基因的内含子(等)中的信息。

我假设每个已知的遗传元素(如外显子)都定义了基因组位置(每条染色体上基因组的起始位置)。我知道这对于外显子和内含子来说是正确的,例如 Ensembl 对基因组中的每个外显子都有 ID:请参见Mus muscululus 中 Amy1 基因的外显子和内含子的示例。我想用上面的位置列表查询此类位置的数据库,以及两者之间是否存在重叠(理想情况下,我应该能够指定重叠,例如,至少 10bp,但如果不是,我可以) ,我应该得到一个打击(是的,这个区域在外显子/内含子/)

缺点是我有几千个这样的位置,理想情况下希望一次性查询它们,并且作为输出有一个表格,每个位置都将被分配“内含子/外显子/utr/intergenic”。该生物是Mus musculus,位置来自整个基因组。

我现在无法提供我正在尝试做的代码示例,因为我不知道从哪里开始 - 如果我有一个包或任何可以构建的东西将帮助我找到解决方案。

如果我能在 R 中做到这将是完美的,但是我无法在 biomaRt 中做到这一点,而且我找不到一个包来做到这一点。我想到了 Galaxy,但考虑到他们不平凡的做法和他们产生的奇怪输出,我宁愿坚持 R。你知道的魔鬼等等。

帮助将不胜感激。

4

4 回答 4

1

好的,抱歉花了我这么长时间,但论文已提交,我最终提交的方式是:

1) 使用 Ensembl 基因注释从 UCSC 表格浏览器下载整个基因、外显子、内含子和所谓的 3'-UTR 外显子和 5'-UTR 外显子的基因组坐标列表。唯一挑剔的一点是,您必须单独下载完整基因的文件和其余部分,并且手册没有明确说明“完整基因”是什么。但是,如果您将它生成的坐标粘贴到基因组浏览器中,您会看到它是 5' UTR,所有内含子和轴突以及 3' UTR。

2)使用 BEDtools 包(Quinlan 和 Hall 2010,https: //www.ncbi.nlm.nih.gov/pubmed/20110278 ),这里有一个非常好的手册和简单的例子:http: //bedtools.readthedocs.org/ en/latest/并使用带 -f 标志的 intersect 命令,让我在我的坐标和 UCSC 坐标之间设置最小重叠(以 bp 或 % 为单位)。

它就像一个魅力——我得到了一个表格文件,其中包含每个功能的重叠。希望这可以帮助。

于 2014-04-15T12:22:39.387 回答
0

这不是一个完整的答案,但我希望这会有所帮助。

生物导体包BSgenome.Mmusculus.UCSC.mm10包含小鼠序列的(最后组装)。这两个讲座(12)展示了如何使用这种包。您似乎可以使用与 UCSC 数据库交互的生物导体包GenomicFeatures检索外显子和内含子。

我认为这是一个很好的方向。我没有时间查找更多信息,请分享您将找到的信息。

于 2013-11-20T14:56:14.197 回答
0

NCBI 有一个染色体图查看器

http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?TAXID=9606&CHR=4&MAPS=ideogr,morbid[11164.00%3A11170.00]&QSTR=EVC%20OR%20HD%20OR%20FGFR3%20OR% 20SNCA%20OR%20NRCLP%20OR%20FOP&QUERY=uid(1968,2105,2886,6280,13348,20241,9026199,9026201,9026283,9026440,9027752,9027884)&zoom=100

在左侧,您有两个搜索框,显示区域显示。

于 2013-11-20T13:56:44.197 回答
0

与往常一样,有几种方法可以做事,但一种非常快的方法是使用 HOMERannotatePeaks.pl脚本。您只需要下载 HOMER 脚本并调用:annotatePeaks.pl.

your_bed_file 基因组 > your_output_file。

您可以在链接中找到文档,请注意并"genomic locations"按照 HOMER 识别的列结构格式化您的床文件(您称为文件)。在输出文件中,您将获得一个名为"annotation"和另一个名为的列"detailed annotation",您将在其中找到您在哪个基因组区域中找到该坐标的信息。

(内含子、外显子、5'UTR、3'UTR、基因间、非编码、GC 岛...)

是更快的方法,但是您可以使用 Bedtools 获得的某些基因匹配可能不会被 HOMER 找到,因为注释不存在。这发生在我身上,在这种情况下,我所做的是,使用 RbiomaRt下载这些由 bedtools 发现且没有 HOMER 注释的基因的信息,并用 TSS、5'UTR、外显子开始和结束和然后,当您使用“for if”语句获得峰值 r 结合位置的确切位置时,您可以找到基因组区域。

于 2017-07-31T14:25:00.173 回答