2

我想在 biopython 中做一个 MultipleSequenceAlignment,但使用一个自定义的字母表。背景是:我的序列是数字状态序列,最多有 5000 个状态。因此,我需要一个包含 5000 个字母的字母表,例如“0001”、“0042”、“4999”。这些序列长达 50 个状态/字母。

所以我的主要问题是:

  • 我如何定义这样的字母表?
  • 如何将此字母与 MultipleSequenceAlignment 一起使用?

或者:是否可以对列表/数组而不是序列执行 MultipleSequenceAlignment?

感谢您的时间和帮助!

4

1 回答 1

0

您可以定义一个 Alphabet 子类Bio.Alphabet.Alphabet。也许您的情况类似于ThreeLetterAlphabet

class ThreeLetterProtein(Alphabet): 
    """Three letter protein alphabet.""" 
    size = 3 
    letters = [ 
        "Ala", "Asx", "Cys", "Asp", "Glu", "Phe", "Gly", "His", "Ile",
        "Lys", "Leu", "Met", "Asn", "Pro", "Gln", "Arg", "Ser", "Thr",
        "Sec", "Val", "Trp", "Xaa", "Tyr", "Glx",
        ]

问题的第二部分令人困惑。如果您希望 Biopython 进行对齐,AFAIK 除了Bio.pairwise2. Biopython 仅对流行的对齐工具(如 Muscle、Clustal 、TCoffee MultipleSeqAlignment...Bio.AlignIO

于 2015-10-05T16:13:36.530 回答