寻找编码序列
cds_position = ''
cds_start = 0
cds_end = 0
cds_sequence = ''
for line in data:
cds_temp = ''
if re.findall(r' CDS ',line):
cds_temp = cds_temp + line.replace('\n','')
position = re.search(r'(\d+)\.\.(\d+)',cds_temp)
cds_start = cds_start + int(position.group(1))
cds_end = cds_end + int(position.group(2))
cds_position = str(cds_start)+':'+str(cds_end)
cds_sequence = cds_sequence + sequence[(cds_start-1):(cds_end-1)]
我收到这个错误
Traceback (most recent call last):
File "Upstream_ORF.py", line 357, in <module>
GenBank_Reader(test_file)
File "Upstream_ORF.py", line 317, in GenBank_Reader
cds_start = cds_start + int(position.group(1))
AttributeError: 'NoneType' object has no attribute 'group'
好的,我真的不明白为什么会收到此错误。
我编写了一个脚本,它逐行遍历特定格式的文件,每当遇到特定字符串后跟 10 个空格时,它都会采用它后面的数字值
exon 1..1333
/gene="BRD2"
/gene_synonym="D6S113E; FSH; FSRG1; NAT; RING3; RNF3"
/inference="alignment:Splign:1.39.8"
/number=3
STS 350..463
/gene="BRD2"
/gene_synonym="D6S113E; FSH; FSRG1; NAT; RING3; RNF3"
/standard_name="CGCb278"
/db_xref="UniSTS:240930"
因此,每当它找到单词 exon 后跟 10 个空格时,它会在 '..' 两侧使用数字,它适用于 5 个不同的文件,但对于其中一个文件,它只是不起作用,而且格式完全相同。我不确定为什么它现在可以工作,因为它仍然可以与其他人一起工作。我在文件中发现了所有出现的“外显子”,并且没有一个像我正在寻找的那样被 10 个空格隔开。
当它适用于具有相同格式的其他文件时,为什么会出现此错误?