我想测试一堆形式的基因组位置:
chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569
我想看看它们是否位于 UTR 或内含子或外显子或基因间序列中。我不关心这些坐标在哪些基因的内含子(等)中的信息。
我假设每个已知的遗传元素(如外显子)都定义了基因组位置(每条染色体上基因组的起始位置)。我知道这对于外显子和内含子来说是正确的,例如 Ensembl 对基因组中的每个外显子都有 ID:请参见Mus muscululus 中 Amy1 基因的外显子和内含子的示例。我想用上面的位置列表查询此类位置的数据库,以及两者之间是否存在重叠(理想情况下,我应该能够指定重叠,例如,至少 10bp,但如果不是,我可以) ,我应该得到一个打击(是的,这个区域在外显子/内含子/)
缺点是我有几千个这样的位置,理想情况下希望一次性查询它们,并且作为输出有一个表格,每个位置都将被分配“内含子/外显子/utr/intergenic”。该生物是Mus musculus,位置来自整个基因组。
我现在无法提供我正在尝试做的代码示例,因为我不知道从哪里开始 - 如果我有一个包或任何可以构建的东西将帮助我找到解决方案。
如果我能在 R 中做到这将是完美的,但是我无法在 biomaRt 中做到这一点,而且我找不到一个包来做到这一点。我想到了 Galaxy,但考虑到他们不平凡的做法和他们产生的奇怪输出,我宁愿坚持 R。你知道的魔鬼等等。
帮助将不胜感激。