0

我有一个 FASTA 文件,其中包含与州及其引用相关的序列。是否可以通过 Jupyter notebook 使用 python 运行 MSA 和 clustal,然后使用对齐序列创建系统发育树。我不知道从哪里开始,当我被分配任务时也没有明确的方向。

4

1 回答 1

0

免责声明:我没有生物学背景。

据我了解,FASTA 格式包含一系列字母,对齐意味着查找序列 #1是否包含或与序列 #2部分重叠。那是字符串操作,Python 非常擅长。您需要编写一个接受 2 个字符串并返回所需内容的函数。

我在 Github 上找到了一个库,似乎可以这样做,我不知道在您的情况下是否允许使用它。以下代码片段取自文档。https://github.com/benchling/clustalo-python

from clustalo import clustalo
input = {
    'seq1': 'AAATCGGAAA',
    'seq2': 'CGGA'
}
aligned = clustalo(input)
# aligned is a dict of aligned sequences:
#   seq1: AAATCGGAAA
#   seq2: ----CGGA--

一旦您可以估计序列相似性,您就可以按顺序显示它们。

您可以在 Jupyter 笔记本中绘图,可以在此处查看示例:在 Google Colab 中使用 Turtle。或者您可以以文本格式显示树,使用空格、制表符等来格式化树。

于 2021-12-18T21:41:07.520 回答