python - 如何加快模式搜索顺便说一句两个列表：python

Question

我有两个 fastq 文件，如下所示。文件中的每条记录都以“@”开头。对于两个这样的文件，我的目标是提取两个文件中常见的记录。

@IRIS:7:1:17:394#0/1
GTCAGGACAAGAAAGACAANTCCAATTNACATTATG
+IRIS:7:1:17:394#0/1
aaabaa`]baaaaa_aab]D^^`b`aYDW]abaa`^
@IRIS:7:1:17:800#0/1
GGAAACACTACTTAGGCTTATAAGATCNGGTTGCGG
+IRIS:7:1:17:800#0/1
ababbaaabaaaaa`]`ba`]`aaaaYD\\_a``XT

我试过这个：首先我得到一个在 file1 和 2 中常见的读取 ID 列表。

import sys
#('reading files and storing all lines in a list')
data1 = open(sys.argv[1]).read().splitlines()
data2 = open(sys.argv[2]).read().splitlines()

#('listing all read IDs from file1')
list1 = []
for item in data1:
  if '@' in item:
    list1.append(item)
#('listing all read IDs from file2')
list2 = []
for item in data2:
  if '@' in item:
    list2.append(item)
#('finding common reads in file1 and file2')
def intersect(a, b):
   return list(set(a) & set(b))

common = intersect(list1, list2)

在这里，我在主文件中搜索 commom ID 并将数据导出到一个新文件中。以下代码适用于小文件，但如果我尝试使用较大的文件，则会冻结我的计算机。我相信'for'占用了太多内存：

#('filtering read data from file1')
mod_data1 = open(sys.argv[1]).read().rstrip('\n').replace('@', ',@')
tab1 = open(sys.argv[1] + '_final', 'wt')
records1 = mod_data1.split(',')
for item in records1[1:]:
  if item.replace('\n', '\t').split('\t')[0] in common:
     tab1.write(item)

请建议我应该如何处理上面的代码，以便它适用于更大的文件（40-1 亿条记录/文件，每条记录为 4 行）。

score 0 · Accepted Answer

使用列表推导，您可以编写：

list1 = [i for item in data1 if '@' in item]
list2 = [i for item in data2 if '@' in item]

您也可以直接使用集合理解将它们定义为集合（取决于您使用的 python 版本）。

set1 = {i for item in data1 if '@' in item}
set2 = {i for item in data2 if '@' in item}

我希望从一开始就创建集合比创建列表然后从中创建集合要快。

至于代码的第二部分，我还不太确定您要实现什么。

python - 如何加快模式搜索顺便说一句两个列表：python

1 回答 1

Related

Reference