-1

作为Gene Expression Atlas的搜索结果,我得到了大约 5000 个基因的列表。从结果页面,我可以将所有结果下载到一个文件中。该文件包含每个基因的基因标识符(Ensembl Gene ID)。所以现在我想要每个 Ensembl Gene ID 对应的 EMBL-Bank ID,这样我就可以从Dbfetch批量下载它们的核苷酸序列。任何人都知道我们怎样才能做到这一点?我们可以使用 biopython 来实现吗?

4

1 回答 1

0

您可以下载的文件采用自定义的制表符分隔格式(Biopython 的解析器都无法处理)。

相反,您可以只使用该csv模块来提取您想要的内容:

import csv


with open("listd1.tab") as tab_file:
    data_lines = (line for line in csv_file if not line.startswith("#"))
    csv_data = csv.reader(data_lines, delimiter="\t")
    header = csv_data.next()  # ['Gene name', 'Gene identifier', ...]
    gene_id_index = header.find("Gene identifier")

    for line in csv_data:
        gene_id = line[gene_id_index]  # Do whatever you'd like with this
于 2013-06-17T15:12:45.490 回答