0

我这里有这个数据:

'**Otolemur_crassicaudatus**_/7977-8746 gi|238809369|dbj|**AB371093.1**|':0.00000000,'**Otolemur_crassicaudatus**/7977-8746 gi|238866848|ref|**NC_012762.1**|':

它都在文件的一行中.txt。我想知道如何提取名称(即OtolemurABNC数字(粗体)以打印到新文件但没有所有其他列。这是我所拥有的一小部分,并且能够这样做会节省很多时间。

4

1 回答 1

1

假设你想要保留的东西有一些可预测性,你想要某种正则表达式来匹配好东西。然后,您可以获取匹配对象列表并将其全部写入一个新文件,但是您想要。我的数据看起来不够好,无法为您制作正则表达式模式,但基本转换看起来像这样:

import re
infile = open('input.txt', 'r')
outfile = open('output.txt', 'w')
for line in infile:
    # Write each matching piece to its own line in the new file
    outfile.write('\n'.join(re.findall('PATTERN', line)))
infile.close()
outfile.close()
于 2013-03-07T00:15:16.940 回答