我的问题与生物信息学有关,特别是蛋白质序列,但是实际上并不需要生物学知识。我正在尝试在 Perl 中找到解决此问题的有效方法:
蛋白质序列基本上是长度不同的序列或字符串,由 20 个氨基酸或字符的组合组成。
因此,长度为 1 时,将有 20 种可能性。问题是每增加 1 个字符,可能性的数量就会大大增加。
我想计算每个长度的每个序列的另一个计算。蛋白质序列可以是数百甚至数千个氨基酸。我只需要获取所有可能的序列来执行此操作。
编辑:我意识到不可能计算每个长度,我不需要这样做,但我想计算一个合理的长度,不会接近宇宙的长度。
关于最有效的编码方式有什么建议吗?
编辑:我真的不需要为 1000 个序列执行此操作,我只是对我不知道的想法、资源、功能等感兴趣,这可能有助于我理解最有效的方法。