0

我编写了一个使用 subprocess 模块调用 unix 排序的 python 脚本。我正在尝试根据两列(2 和 6)对表进行排序。这是我所做的

sort_bt=open("sort_blast.txt",'w+')
sort_file_cmd="sort -k2,2 -k6,6n {0}".format(tab.name)
subprocess.call(sort_file_cmd,stdout=sort_bt,shell=True)

然而,输出文件包含一个不完整的行,当我解析表格时会产生错误,但是当我检查输入文件中为排序而给出的条目时,该行看起来很完美。我想当 sort 尝试将结果写入指定的文件时存在一些问题,但我不确定如何解决它。

该行在输入文件中看起来像这样

gi|191252805|ref|NM_001128633.1| 智人 RIMS 结合蛋白 3C (RIMBP3C),mRNA gnl|BL_ORD_ID|4614 gi|124487059|ref|NP_001074857.1| RIMS 结合蛋白 2 [Mus musculus] 103 2877 3176 846 941 1.0102e-07 138.0

然而,在输出文件中只打印 gi|19125。我该如何解决这个问题?

任何帮助将不胜感激。

内存

4

2 回答 2

0

您看到的可能是尝试同时从多个进程写入文件的结果。

模拟:sort -k2,2 -k6,6n ${tabname} > sort_blast.txtPython 中的命令:

from subprocess import check_call

with open("sort_blast.txt",'wb') as output_file:
     check_call("sort -k2,2 -k6,6n".split() + [tab.name], stdout=output_file)

您可以用纯 Python 编写它,例如,对于一个小输入文件:

def custom_key(line):
    fields = line.split() # split line on any whitespace
    return fields[1], float(fields[5]) # Python uses zero-based indexing

with open(tab.name) as input_file, open("sort_blast.txt", 'w') as output_file:
     L = input_file.read().splitlines() # read from the input file
     L.sort(key=custom_key)             # sort it
     output_file.write("\n".join(L))    # write to the output file

如果您需要对不适合内存的文件进行排序;请参阅使用 Python 对文本文件进行排序

于 2013-11-09T13:22:01.207 回答
0

考虑到 python 有一个用于排序项目的内置方法,使用 subprocess 调用外部排序工具似乎很愚蠢。

查看您的示例数据,它似乎是结构化数据,带有|分隔符。以下是如何打开该文件,并以排序方式迭代 python 中的结果:

def custom_sorter(first, second):
    """ A Custom Sort function which compares items
    based on the value in the 2nd and 6th columns. """
    # First, we break the line into a list
    first_items, second_items = first.split(u'|'), second.split(u'|')  # Split on the pipe character.
    if len(first_items) >= 6 and len(second_items) >= 6:
        # We have enough items to compare
        if (first_items[1], first_items[5]) > (second_items[1], second_items[5]):
            return 1
        elif (first_items[1], first_items[5]) < (second_items[1], second_items[5]):
            return -1
        else:  # They are the same
            return 0  # Order doesn't matter then
    else:
        return 0

with open(src_file_path, 'r') as src_file:
    data = src_file.read()  # Read in the src file all at once. Hope the file isn't too big!
    with open(dst_sorted_file_path, 'w+') as dst_sorted_file:
        for line in sorted(data.splitlines(), cmp = custom_sorter):  # Sort the data on the fly
            dst_sorted_file.write(line)  # Write the line to the dst_file.

仅供参考,此代码可能需要一些调整。我测试的不是很好。

于 2013-11-09T09:33:29.093 回答