问题标签 [dna-sequence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1728 浏览

python - 通过 Python 进行密码子对齐?

我有一对编码 DNA 序列,我希望通过Python执行成对密码子比对,我已经“完成了一半”这个过程。

至今..

  • Biopython我使用package从 genbank 中检索了成对的直系同源 DNA 序列。
  • 我将直系同源对翻译成肽序列,然后使用EMBOSS Needle程序对齐它们。

我希望..

  • 将肽序列的缺口转移到原始 DNA 序列中。

问题

我将不胜感激有关程序/代码(从 Python 调用)的建议,这些程序/代码可以将比对的肽序列对中的缺口转移到相应核苷酸序列对的密码子上。或者可以从头开始执行成对密码子比对的程序/代码。

在此处输入图像描述

0 投票
1 回答
644 浏览

parsing - Bio.Phylo.PAML.codeml 的结果解析器悄悄地无法读取所有数据

Biopython提供了与PAML包接口以进行系统发育分析的方法。

特别是,我正在使用Bio.Phylo.PAML使用 PAML 的 codeml.exe 程序运行分析,在我的情况下,该程序对直系同源基因序列对进行 Ka/Ks (dN/dS) 比率分析。

使用运行分析后,results = cml.run()我可以看到它已成功生成result.out看起来正确的文件。最重要的是,文件的最后一行是我需要解析成 Python 的内容:

我最感兴趣的是dN/dS = 0.2247

根据 Biopython 的PAML wiki,这个值可以从 Python 中获得,通过results = cml.run()在运行分析后生成一个包含一组我感兴趣的值的字典。wiki 声称我可以在一个名为'parameters'. 但这只会返回我需要的值之一t= 0.2173,看:

请注意,我的参数键仅包含t= 0.2173并且已省略S= 703.9 N= 1489.1 dN/dS= 0.2247 dN = 0.0344 dS = 0.1529

codeml经验的人可以向我解释为什么解析器无法产生我感兴趣的大部分参数(值)吗?

额外细节

  • 使用Python2.7、PAML4.7a
  • 在 Windows 7 上运行
  • 我将随时编辑您需要的任何数据或信息,以帮助我解决此问题
0 投票
1 回答
6562 浏览

r - 如何将 as.DNAbin{ape} 与存储在数据框中的 DNA 序列一起使用?

我有一个数据框,其中一列是基因座名称,另一列是 DNA 序列。我正在尝试使用as.DNAbin{ape}或类似方法来创建 DNAbin 对象。

这里有一些示例数据:

x <- structure(c("55548", "43297", "35309", "34468", "AATTCAATGCTCGGGAAGCAAGGAAAGCTGGGGACCAACTTCTCTTGGAGACATGAGCTTAGTGCAGTTAGATCGGAAGAGCA", "AATTCCTAAAACACCAATCAAGTTGGTGTTGCTAATTTCAACACCAACTTGTTGATCTTCACGTTCACAACCGTCTTCACGTT", "AATTCACCACCACCACTAGCATACCATCCACCTCCATCACCACCACCGGTTAAGATCGGAAGAGCACACTCTGAACTCCAGTC", "AATTCTATTGGTCATCACAATGGTGGTCCGTGGCTCACGTGCGTTCCTTGTGCAGGTCAACAGGTCAAGTTAAGATCGGAAGA"), .Dim = c(4L, 2L))

如果我尝试y <- as.DNA(x)R 创建一种具有 4 个 DNA 序列(示例的 4 行)长度为 2(我假设为两列)的 DNAbin 对象,则没有标签,当然碱基组合也不起作用。

文档不是很清楚,但是在玩过包的woodmouse示例数据之后,我认为我需要做的是创建一个矩阵,每个基数为一列,然后使用as.DNAbin. 即在上面的示例中,一个 4 x 84 矩阵(1 列用于基因座名称,83 用于序列?)。关于如何做到这一点的任何建议?还是有更好的主意?

谢谢

0 投票
5 回答
11668 浏览

python - 生成随机的 DNA 序列

我正在尝试使用随机数和随机字符串在 python 中生成随机 DNA 序列。但我只得到一个字符串作为我的输出。例如:如果我给出长度为 5 (String(5)) 的 DNA,我应该得到一个输出“CTGAT”。同样,如果我给 String(4) 它应该给我“CTGT”。但我得到的是“G”或“C”或“T”或“A”;即每次只有一个字符串。有人可以帮我吗?

我尝试了以下代码:

0 投票
4 回答
2600 浏览

java - 在 if/else 语句的参数中使用 next()

所以我很确定我错误地使用了 next 和 hasNext... 我正在尝试输入一串 ACGT 字符,然后计算各个结果字母。提前致谢。

0 投票
4 回答
1486 浏览

python - 构建 DNA 序列生成器

我刚开始在生物信息学研究实验室学习 python。我的第一个项目是生成一个程序,该程序可以输出具有长度和拷贝数参数的各种 DNA 序列。然后需要以 FASTA 格式输出序列。

对于那些不熟悉的人,DNA 序列可以由四个“字母”组成:A、G、C、T。示例 DNA 序列:ACGTTCCGTACGTACTCT

我对这一切真的很陌生,我想要一些关于如何去做以及如何学习python的建议(依靠教程,做随机项目等)。

我目前正在为我的 DNA 序列项目使用其他人的程序,然后我将逐行查看正在做的事情。

我在复制代码时遇到的第一个错误是:

谢谢你。

0 投票
2 回答
263 浏览

java - 如何从字符串中获取低和高字符数?

所以我在这个项目的第二部分遇到了麻烦。我有下面的代码,它给出了每个条目的计数,但我不知道如何获得高点和低点......提前致谢!

A1熟练

这个程序应该像 A1Novice 一样处理输入,但除了产生计数之外,它还应该跟踪每个核碱基中具有最小和最大数量的 DNA 链,并将这些链打印到输出。因此,给定以下输入:

该程序应产生以下输出:

A 计数:4
C 计数:2
G 计数:3
T 计数:4
低 A 计数:A
高 A 计数:AATA
低 C 计数:CC
高 C 计数:CC
低 G 计数:GGG
高 G 计数:GGG
低 T 计数: AATA
高 T 计数:TTT

0 投票
5 回答
5098 浏览

arrays - 使用 Perl 将 cDNA 翻译成氨基酸

所以我试图将一条互补的 DNA 链翻译成它各自的氨基酸。到目前为止,我有这个代码:

我的 infile 已经有反向互补 DNA,我只是想翻译它。出于某种原因,我的输出中没有任何内容。我不知道出了什么问题,因为终端也没有给我任何错误。任何帮助将不胜感激。

这是我要翻译的文件示例:

TCGTCGCCTCCCCAACCTAGGTAGTCCGTTGCTGCCCGACGACGGCCGGTAGTCGCCT GCGTCCCTCCTGAAAGGCGTTGGCCGGCAAGCTACGCCGTGGCTACCGGAAGCGCGTCCCCATCAC GCGGTCCTAACTGAACGCGACGGGATGGAGAGTGATCACTCCCCGCCGTCGCGTAGTTCGCCACTC

并且它继续运行 17 行。

0 投票
1 回答
69 浏览

python - 如何将概率指定为我的 dna 生成器的命令行参数?

我编写了一些代码,可以输出指定长度、副本数、指定概率等的 dna 序列。在 IDLE 中,程序可以正常工作,因为我预设了我想要的概率。我希望这个程序能够从命令行有效地运行。

我怎样才能让我的概率(权重)作为命令行参数运行,就像我对长度和副本数量所做的那样?我不知道如何将概率作为参数合并到命令行中。谢谢你的帮助!这是代码:

0 投票
1 回答
597 浏览

regex - Python正则表达式:重叠序列位置

我使用 Python 2.7 和 regex 模块。我使用这个表达式在较长的 DNA 序列中找到一个短序列:

参数是:

  • probe : 我在基因组中寻找的一个短字符串
  • 基因组:一长串
  • mismatches :我允许基因组的探针/片段之间有多少差异。

有没有办法获得与基因组中正则表达式匹配的所有序列的位置?此脚本是否找到重叠匹配?它工作得很好,但后来我决定尝试,说:

我有 :

['TTGACAT']

参数相同但不匹配 = 10

我有 :

['TTGACAT','GACATAT']

所以我不知道脚本是否只找到一次“TTGACAT”,因为它与第二次出现重叠,或者它是否实际上两次找到“TTGACAT”并且只显示一次结果......

谢谢