9

我有 2 个代码与我要求的工作相同,但我仍然没有为我的数据集获得任何有用或更好的代码以使其对我有用,首先让我清楚我在做什么。我有2 TEXT文件,一个名为 as input_num,第二个名为 as ,从其中有数字的input_data名称中可以清楚地看出,其中有数据,这两个文件的大小为 8 到 10 mb,让我向您展示它们的一部分,这是'input_num.txt'input_num.txtinput_data

ASA5.txt DF4E6.txt DFS6Q7.txt

和这个input_data.txt

>56|61|83|92|ASA5
Dogsarebarking

这2个是他们的文本文件的一些部分,input_data.txt最后一列包含ASA5等等,这些是来自的数据input_num.txt,所以程序首先检查最后一列是>56|61|83|92|ASA5ASA5不是goto input_num.txt5它包含一些input_num.txt4上面一样的值,所以它回到input_data.txtgoto 单词并将它们削减为 4 ,

我有 2 个代码:1 是

import os
import re
file_c = open('num_data.txt')
file_c = file_c.read()
lines = re.findall(r'\w+\.txt \d+', file_c)
numbers = {}

for line in lines:
    line_split = line.split('.txt ')
    hash_name = line_split[0]
    count = line_split[1]
    numbers[hash_name] = count
file_i = open('input_data.txt')
file_i = file_i.read()

for hash_name, count in numbers.iteritems():
    regex = '(' + hash_name.strip() + ')'
    result = re.findall(r'>.*\|(' + regex + ')(.*?)>', file_i, re.S)

    if len(result) > 0:
        data_original = result[0][2]
        stripped_data = result[0][2][int(count):]
        file_i = file_i.replace(data_original, '\n' + stripped_data)
f = open('input_new.txt', 'wt')
f.write(file_i)
f.close()

第二个是

import csv
output = open('output.txt' , 'wb')
def get_min(num):
    return int(open('%s.txt' % num, 'r+').readlines()[0])
last_line = ''
input_list = []

#iterate over input.txt in sort the input in a list of tuples 
for i, line in enumerate(open('input.txt', 'r+').readlines()): 
    if i%2 == 0: 
        last_line = line
    else:
        input_list.append((last_line, line))
filtered = [(header, data[:get_min(header[-2])] + '\n' ) for (header, data) in input_list]
[output.write(''.join(data)) for data in filtered]
output.close()
4

1 回答 1

5

据我从您对第一个代码的问题的描述中可以理解,您想要N输出中的第一个字母,而实际上您得到了除第一个N字母之外的所有内容。这可能可以通过更改来解决

stripped_data = result[0][2][int(count):]

stripped_data = result[0][2][:int(count)]

我也认为使用的正则表达式并不完全准确。我建议以下数字:

with open('num.txt') as nums:
    lines = re.findall(r'\w+\.txt\s+\d+', nums.read())

numbers = {}
for line in lines:
    line_split = re.split(r'\.txt\s+', line)
    count = line_split[1]
    numbers[line_split[0]] = int(line_split[1])

以及以下数据:

with open('input_data.txt') as file_i:
     data = file_i.read()

for name, count in numbers.iteritems():
    result = re.search(r'\|{}\n(.*?)(>|$)'.format(name), s, re.S)
    if result:
        data_original = result.group(1)
        stripped_data = data_original[:count]
        data = data.replace(data_original, stripped_data)
with open('input_new.txt', 'w') as f:
    f.write(data)

但请注意,这个想法仍然存在缺陷,因为您可能会在执行时意外更改多个序列replace。此外,这种方法内存效率低,因为文件作为一个字符串读入内存。我建议对数据使用迭代解析器,就像我在下面提到的那样。


无论如何,如果我必须解决这个问题,我会用它pyteomics来读写 FASTA 文件(因为我写了它并且总是很方便)。

的格式input_num.txt很糟糕,所以我认为您的第一个示例中的代码是提取信息的最佳方法。不过,我对其进行了一些修复:

import re
from pyteomics import fasta

with open('num.txt') as nums:
    lines = re.findall(r'\w+\.txt\s+\d+', nums.read())

numbers = {}
for line in lines:
    line_split = re.split(r'\.txt\s+', line)
    count = line_split[1]
    numbers[line_split[0]] = int(line_split[1])

with fasta.read('data.txt') as data:
    new_data = ((header, seq[:numbers.get(header.rsplit('|', 1)[-1])])
            for header, seq in data)
    fasta.write(new_data, 'new_data.txt')

另一方面,由于您的数据看起来更像 DNA 序列,而 pyteomics 是针对蛋白质组学的,因此使用 可能更有意义BioPython.SeqIO

import re
from Bio import SeqIO

with open('num.txt') as nums:
    lines = re.findall(r'\w+\.txt\s+\d+', nums.read())

numbers = {}
for line in lines:
    line_split = re.split(r'\.txt\s+', line)
    count = line_split[1]
    numbers[line_split[0]] = int(line_split[1])
data = SeqIO.parse(open('data.txt'), 'fasta')

def new_records():
    for record in data:
        record.seq = record.seq[:numbers.get(record.description.rsplit('|', 1)[-1])]
        yield record

with open('new_data.txt', 'w') as new_data:
    SeqIO.write(new_records(), new_data, 'fasta')
于 2013-04-16T17:59:41.537 回答