我有一个蛋白质序列的FASTA文件。我想查找文件中是否存在序列 hxxhcxc,如果是,则打印拉伸。这里,h=疏水,c=带电,x=任何(包括剩余的)残基/s。如何在 Perl 中做到这一点?
我能想到的是制作 3 个阵列——疏水的、带电的和所有的残基。将每个数组与具有 FASTA 序列的文件进行比较。除此之外,我想不出什么,尤其是如何维持秩序——这是主要的。我是 Perl 的初学者,所以请让解释尽可能简单。
PS:由于这只是一个序列,我可以简单地将内容复制到 .txt 文件,没有强制使用 fasta 文件(在这种情况下)。疏水和带电残基(氨基酸) - 有 9 个疏水残基和 5 个带电残基。正如您提到的,它是大写单字母的氨基酸名称。所以我想做的是在蛋白质序列(.txt文件/fasta文件)中按顺序找到一个序列:疏水,任何,任何,疏水,带电,任何,带电(hxxhcxc)。我努力重新提出我的问题——希望我现在好一点了。