问题标签 [genome]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1283 浏览

r - R中常见的基因组区间

我想推断不同样本之间共享的基因组间隔。

我的输入:

我的预期输出:

其中“频率”是有多少样本有助于推断共享区域。在上面的示例中,freq = 2(NE001 和 NE002)。

干杯!

0 投票
2 回答
2225 浏览

python - 一种通过坐标快速获取人类基因组序列的方法

我想随机获得很多人类基因组片段(超过 5 亿个)。

这是整个过程的部分工作。我有来自 bowtie 的 .sam 结果文件,有 1000 万个人类基因组读取对齐。我想将每个查询读取与 sam 文件中的“它对齐的参考序列”进行比较。我使用的参考序列是来自 UCSC 的 hg19.fa。所以我需要能够通过使用 sam 文件中的位置从 hg19.fa (或染色体文件)中获取序列。

例如,给予:chr4:35654-35695,我可以获得 42bp 序列:

gtcttccagggtttttattatttttgggttttacacttaagt

到目前为止,我有 2 个解决方案: 1. 从 UCSC DAS 服务器获取序列的 python 脚本:http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr4: 35654,35695

  1. 使用 python 脚本调用“samtools faidx”命令并返回 commnad 输出,来自帖子: http ://seqanswers.com/forums/showthread.php?t=23606&highlight=fetch+genome+coordinate

但是,它们很慢。samtools faidx 比从 DAS 服务器获取它要快一些,但仍然很慢。

那么,有什么快速的方法可以做到这一点吗?我有单独的染色体 fasta 文件和 hg19.fa 文件。

0 投票
2 回答
1749 浏览

multidimensional-array - AWK:如果文件 1 中的列落在其他文件的两列中声明的范围内,则提取行

目前,我正在努力解决我尚未解决的 AWK 问题。我有一个包含基因组数据的巨大文件(30GB),其中包含一个位置列表(在第 1 列和第 2 列中声明)和第二个包含多个范围的列表(在第 3、4 和 5 列中声明)。我想提取第一个文件中位置落在秒文件中声明的范围内的所有行。由于该位置仅在某个染色体(chr)内是唯一的,因此必须首先测试 chr 是否相同(即文件 1 中的 col1 与文件 2 中的 col3 匹配)

文件 1

文件 2

预期产出

我打算做的事情的总结(半编码):

如果理解如何通过将 file1 放入一个数组并使用 position 作为索引来解决这个问题,我很高兴,但是我仍然对 chr 有问题,而且除了 file1 放入一个数组中的方式很大(尽管我有 128GB内存)。我用多维数组尝试了一些东西,但也无法真正弄清楚如何做到这一点。

非常感谢您的帮助。

2014 年 8 月 5 日更新在文件 2 中添加了第三行,其中包含相同色度中的另一个范围。就像第二行一样。在下面的脚本中跳过了这一行。

0 投票
1 回答
421 浏览

r - 每个条上具有多个值的复杂叠加水平 R 条形图

几个月来我一直在尝试弄清楚如何做到这一点,所以希望有人能给我一些澄清。我创建了一个 R 脚本,它显示了我的数据库基因表中的所有值。所以它给出了每个基因的长度(以核苷酸为单位),我将它水平放置。

主要思想是从另一个名为 QGRS 的表中获取值,其中包含每个 QGRS 的长度。我遇到的问题是一个基因上有很多 QGRS,所以我不知道如何使用 R 来显示这一点。可能有更好的方法,但我的想法是让水平基因长度条为一种颜色,并让 QGRS 长度以不同颜色出现在这些条上,以突出 QGRS 在基因上的位置。这适用于所有基因。我不明白如何在单个条上获取多个值,然后如何正确叠加两个图。

我希望这是有道理的。这是我所拥有的:

这是它输出的内容[长图!]: 在此处输入图像描述

** 注意,左边的数字被剪掉了一点,我不知道为什么......但它们是直接来自 NCBI 的基因 ID,只是将它们标记为的参考。


如果需要更多信息,请告诉我。请,任何帮助我将不胜感激。我真的试图寻找答案几个月(整个过去的学期),但我认为我在这方面不是很胜任。这对我来说太复杂了。

现在我知道我可以为 QGRS 制作另一个图表,但如果以同样的方式,它们每个都会出现在不同的线上!所以这没有帮助。

另外,我的基因表是这样工作的。对于人类基因组中的所有染色体,我每个染色体有 5 个基因(如果分别计算 X 和 Y,则为 24 个)。因此,如果需要,基因图也可以组合成只有 24 行,每行由 5 个基因组成,但我怀疑这是否有帮助。

- - - - 编辑 - - - - - -

这是来自基因表的样本数据,即 1 号和 2 号染色体的 5 个基因:

这是来自 QGRS 表的示例数据 [Gene '8682' 的几行 [上述示例数据中的第一行]

0 投票
2 回答
190 浏览

python - 如何根据与序列的同源物从基因组中提取序列?

我有一个在某些物种中具有同源物的序列以及这些同源物的分数。

这是来自 gff 文件的示例记录:

==>4592637 => NAPP(Nucleic Acid Phylogenetic Profiling database) 序列 ID(不是 genbank id

==>Beutenbergia_cavernae_DSM_12333 => 序列的物种名称

==>TILL => 序列类型

==>70731 .. 70780 => 序列的开始和结束

==>clst_id=429 => 是这个序列的簇id

==>SubjectOrganism => 序列与其有同源物的物种名称

==>SubjectScore => 该物种序列的同源物分数(Blastn 分数)

我想从SubjectOrganism序列(4592637)有相似之处的地方提取序列。

如何使用 Python 从序列具有同源物的基因组中提取序列?

0 投票
1 回答
2725 浏览

r - 将两个 Granges 对象相减

我环顾四周,似乎之前没有发布任何关于此的问题。我有两个带有一些坐标的 GRanges 对象,我想从另一个中减去一个的间隔。这与使用 findOverlaps() 或使用 intersect() 查找重叠不同。

例如:

而且我要:

以下工作,但它非常笨拙,我必须逐个染色体地做它,因为每个染色体的间隔数在两个对象之间不匹配。

有没有一种更快、更有效的方法来整体使用这两个 GRange 对象?谢谢!

0 投票
1 回答
632 浏览

biopython - 在 biopython 中对基因组进行爆炸

这并没有给我一个输出,虽然序列实际上是基因组的序列,所以我必须得到一个结果。错误在哪里?查询是否正确?

0 投票
2 回答
64 浏览

r - 样本之间的基因组间隔相等

我想找到样本之间共享的完全相同的基因组间隔(NE_id)。

我的输入:

我的预期输出:

在这个例子中,chr2基因组区间有一些重叠,但是它不对应于完全相同的基因组区间(大小差异 == 10)。

非常感谢。

0 投票
5 回答
443 浏览

perl - Perl 排序基因组位置

我有一个染色体格式的基因组位置列表:开始-结束

例如

我想按染色体编号和数字起始位置对其进行排序以获得:

在 perl 中执行此操作的好方法是什么?

0 投票
1 回答
84 浏览

r - Multiple Linear Models

I currently have two data tables one of which contains independent and control variables in columns while the other contains rows of dependent variables.

Can anybody help in creating a method to do linear models from the two tables that repeats for each row in the dependent value table?