如何使用 Python 有效地获取基因组序列?例如,来自 .fa 文件或其他一些容易获得的格式?我基本上想要一个接口 fetch_seq(chrom, strand, start, end) 它将返回指定链上给定染色体上的序列 [start, end]。
类似地,是否有用于获取 phastCons 分数的编程 python 接口?
谢谢。
如何使用 Python 有效地获取基因组序列?例如,来自 .fa 文件或其他一些容易获得的格式?我基本上想要一个接口 fetch_seq(chrom, strand, start, end) 它将返回指定链上给定染色体上的序列 [start, end]。
类似地,是否有用于获取 phastCons 分数的编程 python 接口?
谢谢。
在 Biostar 上查看我对您问题的回答:
将 SeqIO 与 Fasta 文件一起使用,您将获取文件中每个项目的记录对象。然后你可以这样做:
region = rec.seq[start:end]
拉出切片。使用标准库的好处是您不必担心原始 fasta 文件中的换行符。
看看biopython,它支持多种基因序列格式。具体来说,它支持FASTA 和 GenBank 文件,仅举几例。