问题标签 [dna-sequence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
825 浏览

bioinformatics - 如何从文本文件中读取 DNA 序列并将其存储在 C 中的数组中?

如何从 C 语言的文本文件中读取 DNA 序列并将其存储在数组中并从每个核苷酸位置开始提取给定长度的所有子串?

例如,序列在文本文件中的方式如下

cctgatagacgctatctggctatccaggtacttaggtcctctgtgcgaatctatgcgtttccaaccat

所有起始位置的所有子串

如果子字符串的长度 = 3

cct, ctg, tga, gat, ..., 猫

0 投票
4 回答
653 浏览

regex - 使用 Perl 一次遍历字符串 3 个位置

我在 Perl 中编写了以下代码。我想一次遍历一个字符串 3 个位置(字符)。如果TAA, TAG, 或TGA(终止密码子) 出现,我想打印到终止密码子并删除其余字符。


例子:

数据.txt

ATGGGTAATCCCTAGAAATTT

ATGCCATTCAAGTAACCCTTT

回答:

ATGGGTAATCCCTAG(删除最后 6 个字符)

ATGCCATTCAAGTAA(删除最后 6 个字符)

(每个序列都以 ATG 开头)。


代码:

但是,我的代码没有给出正确的结果。字符不应该有任何重叠(我想每 3 个字符移动一次)。

有人可以建议如何解决错误吗?

谢谢!

0 投票
1 回答
1108 浏览

bioinformatics - Picard SamToFastq 仅提取一次读取,然后引发错误

我正在尝试从 bam 文件中提取一些 FastQ 文件。Picard 可以使用 SamToFastq 执行此操作,正如该工具的文档中所说,它接受 bam 或 sam 文件。

但是当我运行它时,它只提取一次读取,然后退出。这是错误消息。任何帮助表示赞赏。

0 投票
3 回答
3482 浏览

python - 计算大量序列的成对差异矩阵?

我想计算一长串序列之间的成对差异的数量,并将其放回矩阵形式。

我有几百个基因序列,每个序列已经对齐并且长度相同(大约 300 个字符)。我不是在寻找一种编辑距离算法(汉明、莱文斯坦等),而是想获得两个序列之间绝对差异的数量。必须在每个字符位置比较序列。

例如,

(破折号允许序列对齐,我的序列也可能包括破折号)。

是否有任何有效的方法可以使用 python(或其他语言)在很短的计算时间内做到这一点?我也在 R 中问过这个问题,最初打算这样做,但结果太慢,无法应用于数百个序列。

谢谢!

0 投票
1 回答
156 浏览

regex - 我需要在文件的标题行中搜索一个模式并将下一行与 Perl 连接起来

我的 multi-fasta 存档格式如下:

我是 Perl 的新手,我需要搜索等号“> 行”并连接下一行以加入序列。

我期待上述文件的以下输出:

完成这项工作的最佳方法是什么?

0 投票
7 回答
203 浏览

string - 确定 2 条主链的匹配与不匹配的比率?

可能重复:
如何绘制 DNA 序列的基因图,例如 ATGCCGCTGCGC?

我试图编写一个 Perl 脚本来比较两个 DNA 序列(可以说每个长度为 60 个字符)对齐,然后显示序列彼此匹配与不匹配的比率。但我运气不太好。如果它有帮助我可以上传我的代码,但它没有用。这是我试图在下面实现的示例。

例如

所以上面例子的匹配项是 4。不匹配项是:3。给它一个 4.3 的比率。

任何帮助将非常感激。谢谢。

0 投票
4 回答
2052 浏览

perl - 如何在不逐行读取的情况下从文本文件中提取 DNA 序列?

我正在尝试从文本文件中提取 DNA 序列并将其存储。我可以使用下面的代码来做到这一点,但这不是最好的方法,因为我正在逐行读取文本文件。我想知道是否有一种更简单的方法可以在我的文本文件中找到每个 DNA 序列,而无需逐行读取文本文件。

例子.pl

数据.txt

gi|171361, 酿酒酵母, (CYS3) 基因, 实验室 1, Joe Bloggs GCAGCGATCGACAGCTGTGCTATCCCGGCGAGCCCGTGGCAGAGGACCTCGCTTGCGAAAGCATCGAGTACC

gi|171362, 酿酒酵母, (CYS4) 基因, 实验室 2, Paul McDonald GAAGCGCACGACAGCTGTGCTATCCCGGCGAGCCCGTGGCAGAGGACCTCGCTTGCGAAAGCATCGAGTACC

0 投票
1 回答
260 浏览

python - 如何使用 pycogent 在 python 2.7 中创建祖先序列?

我正在研究一个生物信息学项目,并尝试在 python 2.7 中运行一个名为 pycogent 的模块。我的目标是从一个由对齐的 16s Fastq 序列组成的文件中创建一个祖先序列。

我的python代码如下:

但是,我收到以下错误消息。

任何帮助或指导将不胜感激。

此致,

保罗

0 投票
1 回答
384 浏览

python - 比较未排序数据的快速算法

我有数据需要保持在输入的确切序列(基因组测序)中,我想搜索大约 10 亿个节点,每个节点约有 18 个成员来定位模式。

显然,对于这么大的数据集,速度是一个问题,实际上我目前没有任何数据可以用作离散键,因为搜索的基础是定位和隔离(但不是删除)重复项。

我正在寻找一种可以在相对较短的时间内遍历数据以定位这些模式和相似性的算法,并且我可以计算出正则表达式进行比较,但我不确定如何获得更快的搜索比 O(n)。

任何帮助,将不胜感激。

谢谢

0 投票
2 回答
2457 浏览

unix - 使用 grep 搜索 DNA 序列文件

我正在尝试使用 Unix 的 grep 来搜索文件中的特定序列。这些文件通常非常大(~1Gb),有 'A's、'T's、'C's 和 'G's。这些文件也跨越很多行,每行是一个 60 多个字符的单词。我遇到的问题是,当我在这些文件中搜索特定序列时,grep 将返回单行上出现的模式的结果,但如果模式跨越一行(中间某处有换行符)则不会。例如:

使用

搜索文件 grep3.txt(我将目标“GACGGCT”放在双星中)

退货

所以,我的问题是grep没有找到GACGGCT跨越第 2 行末尾和第 3 行开头的。

如何使用 grep 查找在字符串中的任何位置可能包含或不包含换行符的目标序列?或者我怎么能告诉grep忽略目标字符串中的换行符?有没有一种简单的方法可以做到这一点?