作为Gene Expression Atlas的搜索结果,我得到了大约 5000 个基因的列表。从结果页面,我可以将所有结果下载到一个文件中。该文件包含每个基因的基因标识符(Ensembl Gene ID)。所以现在我想要每个 Ensembl Gene ID 对应的 EMBL-Bank ID,这样我就可以从Dbfetch批量下载它们的核苷酸序列。任何人都知道我们怎样才能做到这一点?我们可以使用 biopython 来实现吗?
问问题
189 次
1 回答
0
您可以下载的文件采用自定义的制表符分隔格式(Biopython 的解析器都无法处理)。
相反,您可以只使用该csv
模块来提取您想要的内容:
import csv
with open("listd1.tab") as tab_file:
data_lines = (line for line in csv_file if not line.startswith("#"))
csv_data = csv.reader(data_lines, delimiter="\t")
header = csv_data.next() # ['Gene name', 'Gene identifier', ...]
gene_id_index = header.find("Gene identifier")
for line in csv_data:
gene_id = line[gene_id_index] # Do whatever you'd like with this
于 2013-06-17T15:12:45.490 回答