当 DNA 序列中存在某种模式时,我想检索编码氨基酸。例如,模式可以是:ATAGTA。所以,当有:
输入文件:
>sequence1
ATGGCGCATAGTAATGC
>sequence2
ATGATAGTAATGCGCGC
理想的输出将是一个表格,其中每个氨基酸的次数由模式编码。在序列 1 中,模式只编码一个氨基酸,但在序列 2 中,它编码两个。我想让这个工具可以扩展到数千个序列。我一直在考虑如何完成这项工作,但我只想:替换所有与模式不同的核苷酸,翻译剩下的内容并获得编码氨基酸的摘要。
请让我知道是否可以通过现有工具执行此任务。
谢谢你的帮助。一切顺利,贝尔纳多
编辑(由于我的帖子产生的混乱):
请忘记原始帖子以及序列1和序列2。
大家好,很抱歉造成混乱。输入的 fasta 文件是使用“FeatureExtract”工具( http://www.cbs.dtu.dk/services/FeatureExtract/download.php )从 GenBank 文件派生的 *.ffn 文件,因此可以想象它们已经在帧(+1),并且不需要在与+1不同的帧中编码氨基酸。
我想知道以下序列编码的是哪种氨基酸:
AGAGAG
GAGAGA
CTCTCT
TCTCTC
我想获得编码氨基酸的唯一字符串是三个 AG、GA、CT 或 TC 的重复,分别是 (AG)3、(GA)3、(CT)3 和 (TC)3。我不希望程序检索四个或更多重复的编码氨基酸。
再次感谢,贝尔纳多