问题标签 [genome]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
669 浏览

python - 具有不同长度的另一个数据帧的子集数据帧

我有一个数据框,其中包含由染色体(chr)和位置(pos)表示的相互作用的染色体对,如下所示:

在真实数据集中,这些按 chr1 排序,然后是 pos1、chr2、pos2。

我有另一个数据集,其中包含我希望以下列格式查看的交互对:

当且仅当两个交互对(chr1-pos1 和 chr2-pos2)都在 df2 的起始值和终止值范围内找到时,我希望对 df1 进行子集化以包含行。

在这个例子中,最终的数据框看起来像这样:

我一直在尝试使用 pandas 中的 .between 函数明智地执行此步骤(对于第一个 chr-pos 对,然后是第二个),但没有任何成功。我在 python2.7 和 python3.6 中都试过了。

这似乎适用于 .isin 但我收到 .between 函数的错误。我认为是因为数据帧的长度不同,但我不能确定。

任何帮助是极大的赞赏!

0 投票
0 回答
64 浏览

graph - N 个基因组的图形表示

我有 n 个序列,每个序列长度为 30 亿(人类基因组)。我正在寻找有效的方法来存储/表示这些 n 个字符串。我能想到的一种自然方式是图,其中节点可以存储这些序列之间的公共子字符串,并且在我们看到变化的节点和一组路径之间存在有向边 P = P1 。. . Pq 其中每条路径代表原始序列..

例如:

假设我们有四个字符串 S1 = ATCGGCT, S2 = ATCGATT, S3 = GTCGGCT, S4 = GTCGATT。那么Graph应该如下

在此处输入图像描述

我面临的问题是如何找到在 n 序列中常见的最大公共子序列,如果不是,则为 n-1 序列,依此类推。任何人都可以指向我可以获得方向或伪代码的资源吗?提前致谢。

0 投票
0 回答
228 浏览

bioinformatics - 为什么完全相同的染色体坐标有不同的整体外显子 ID

我从 biomart 下载了人类基因组 (hg38) 和 ensembl 版本 87 的外显子坐标。我提取了以下信息。

对于相同的染色体名称和外显子开始和结束坐标,有多个外显子 ID。我无法理解为什么?

例如,在染色体 5 正链 (+) 上,在基因组坐标处(起始位置 141505393 和终止位置 141505481),有超过 1 个外显子 ID(ENSE00003461101 和 ENSE00003463136 和 ENSE00003473630 和 ENSE3474096 和 ENSE00003484284)。

换句话说,所有这些不同的外显子 ID 都是完全相同的外显子,在同一条染色体和同一条链上具有相同的起始和终止坐标。

这怎么可能?我错过了什么吗?

0 投票
2 回答
31 浏览

bioinformatics - 是否有任何可用于嵌合序列检测的开源工具?

除了 USearch 之外,是否有任何工具可以从 16s、WGS、WTS 序列中检测和去除嵌合序列。替代方案应该是开源的,以便可以用于商业目的。

0 投票
3 回答
467 浏览

r - Block bootstrap for genomic data

I am trying to implement a block bootstrap procedure, but I haven't figured out a way of doing this efficiently.

My data.frame has the following structure:

The first column is the chromosome identification, the second column is the position, and the last two columns are variables for which I want to calculate a correlation. The problem is that each row is not entirely independent to one another, depending on the distance between them (the closer the more dependent), and so I cannot simply do cor(df$var_A, df$var_B).

The way out of this problem that is commonly used with this type of data is performing a block bootstrap. That is, I need to divide my data into blocks of length X, randomly select one row inside that block, and then calculate my statistic of interest. Note, however, that these blocks need to be defined based on the column POS, and not based on the row number. Also, this procedure needs to be done for each chromosome.

I tried to implement this, but I came up with the slowest code possible (it didn't even finish running) and I am not 100% sure it works.

Could anybody help me out? I am sure there is a more efficient way of doing this.

Thank you in advance.

0 投票
1 回答
52 浏览

unix - 如何创建由另一个文件中的值定义的间隔文件 - 用于 WGS 数据的 circos 成像

我正在尝试使用 circos 软件描绘我的寄生虫的全基因组序列 (WGS) 数据。

我想描述的元素之一是参考基因组的区域,我没有来自我的寄生虫的测序数据。

为了做到这一点,我使用 Samtools 创建了一个 mpileup 文件,我从中提取了序列深度 = 0 的位置。因此,我有一个如下所示的文件:

这意味着 1 号染色体中有 3 个位置没有序列数据(深度 = 0):即位置 1、2 和 3。对于 2 号染色体,没有数据的位置是位置 67、68、1099、1100 和 1101。

由于我的文件很大(多达 300 万行),而且很多未排序的位置都是间隔的,我想根据上述数据创建一个间隔文件。此外,circos 需要这样的间隔文件才能创建图块。因此,我需要从上面创建一个新文件,如下所示:

我搜索了一堆,但我只发现与按预定义时间间隔对数据进行分组有关的问题(例如,在 6 个月内发生的团购,按年龄划分的患者等)。

因此,如果有人可以帮助我,我将非常高兴!西德塞尔

0 投票
2 回答
92 浏览

r - 在 R 中映射基因型矩阵的有效代码

嗨,我想将编码为三元组的基因型矩阵转换为编码为 0、1、2 的矩阵,即

首先这里是一些代码来生成需要减少的矩阵。

输出有 3n 列和 p 行,其中 n 是样本大小,p 是基因型数。现在我们可以使用以下函数将矩阵还原为 0,1,2 编码

输出是 n 行 x p 列。偶然但有意的是,编码为 0,1,2 的矩阵是编码为三元组的矩阵的转置。

代码不是特别快。困扰我的是时间与n ^ 2有关。你能解释或提供更有效的代码吗?

0 投票
1 回答
1142 浏览

shell - Unix。循环遍历具有相同名称但不同染色体编号的 Plink 文件。产生输出

我有 Unix 的基本知识。我有一个包含 22 个具有此名称模式的文件的列表:chr1_ASI、chr2_ASI、chr3_ASI...chr22_ASI。

我想在 OS X 终端中使用这个 Plink 命令遍历它们:

然后对于 2-22 号染色体也是如此。

我想在 Unix 中使用 for 循环来简化这个脚本。这就是我所拥有的。

但这不起作用。我可能在做一些基本的错误。先感谢您。

已编辑:正如有人注意到的那样,我的错误只是写了 chr${1}_ASI 而不是 chr${i}_ASI。否则脚本运行得很好。

0 投票
0 回答
48 浏览

bioinformatics - 从列表中识别相关 SNP

我有几千个基因的 CDS 中所有 SNP 的列表,我正在寻找一种方便的方法来列出改变这些基因中氨基酸的已知 SNP。

我很高兴听到你的想法。

谢谢

0 投票
0 回答
631 浏览

alignment - 在使用 samtools 的双末端测序 bamfile 中,没有正确配对的读取映射

我正在处理一个双端全基因组测序的 bamfile,并且想要过滤掉来自特定基因组区域的未映射到正确配对中的读数(这些有时表示结构变异)。我正在使用 samtools,并尝试使用“标志”选项过滤读取,以选择未映射成正确对的读取。如果我是正确的,这些读数的标志值不应该有 2。(https://broadinstitute.github.io/picard/explain-flags.html

但是,根据 samtools,我的所有读取都没有映射成正确的对。当我计算(-c)我指定的区域中的所有读取时,没有过滤器,它给我的总数为 179:

当我过滤正确配对的读取时,即标志包含“2”(-f 2),计数为零:

我检查了读取是否被识别为配对(-f 1),以及配对是否被映射(-F 8),它们都是:

我还尝试了基因组中的其他区域,并且到处遇到同样的问题。我使用相同的 BAM 文件检查了 IGV 中的区域,IGV 告诉我大多数读取都正确配对,只有少数不是。有谁知道这里发生了什么?BAM 文件是否以不考虑正确配对映射的方式标记?

欢迎任何帮助!非常感谢。