python - 替换巨大的 txt 制表符分隔文件的第一行中的文本

Question

我有一个巨大的文本文件（19GB 大小）；它是一个包含变量和观察值的遗传数据文件。
第一行包含变量名称，它们的结构如下：

id1.var1 id1.var2 id1.var3 id2.var1 id2.var2 id2.var3

我需要交换 id1、id2 等。具有另一个文本文件中的相应值（该文件大约有 7k 行）ID 没有任何特定顺序，其结构如下：

oldId newIds
id1 rs004
id2 rs135

我已经进行了一些谷歌搜索，但无法真正找到一种允许执行以下操作的语言：

阅读第一行
用新的 id 替换 id
从原始文件中删除第一行并将其替换为新文件

这是一个好方法还是有更好的方法？
哪种语言是实现这一目标的最佳语言？
我们有在 python、vbscipt 和 Perl 方面有经验的人。

score 4 · Accepted Answer

几乎任何语言（我确信 Python 和 Perl）都可以实现整个“替换”，只要替换行的长度与原始行的长度相同，或者如果可以通过填充使其相同空格（否则，您将不得不重写整个文件）。

打开文件进行读写（w+模式），读取第一行，准备新行，seek到文件中的位置0，写入新行，关闭文件。

score 3 · Accepted Answer

我建议您使用该Tie::File模块，该模块将文本文件中的行映射到 Perl 数组，并使标题之后的行的重写成为一项简单的工作。

这个程序演示。它首先将所有旧/新 ID 读取到哈希中，然后使用Tie::File. 使用替换修改文件的第一行 (in $file[0])，然后解开数组以重写并关闭文件。

您将需要更改我使用的文件名。另请注意，我假设 ID 始终是“单词”字符（字母数字加下划线）后跟一个点，并且没有空格。当然，您需要在修改文件之前对其进行备份，并且在更新真实文件之前，您应该在较小的文件上测试程序。

use strict;
use warnings;

use Tie::File;

my %ids;
open my $fh, '<', 'newids.txt' or die $!;
while (<$fh>) {
  my ($old, $new) = split;
  $ids{$old} = $new;
}

tie my @file, 'Tie::File', 'datafile.txt' or die $!;
$file[0] =~ s<(\w+)(?=\.)><$ids{$1} // $1>eg;
untie @file;

score 1 · Accepted Answer

这应该很容易。我会使用 Python，因为我是 Python 粉丝。大纲：

读取映射文件，并保存映射（在 Python 中，使用字典）。
一次读取一行数据文件，重新映射变量名称，并输出编辑的行。

你真的不能就地编辑文件......嗯，如果每个新变量名的长度总是与旧名完全相同，我想你可以。但是为了便于编程和运行时的安全，最好总是编写一个新的输出文件，然后删除原始文件。这意味着在运行它之前您至少需要 20 GB 的可用磁盘空间，但这应该不是问题。

这是一个 Python 程序，它展示了如何做到这一点。我使用您的示例数据制作测试文件，这似乎有效。

#!/usr/bin/python

import re
import sys

try:
    fname_idmap, fname_in, fname_out = sys.argv[1:]
except ValueError:
    print("Usage: remap_ids <id_map_file> <input_file> <output_file>")
    sys.exit(1)

# pattern to match an ID, only as a complete word (do not match inside another id)
# match start of line or whitespace, then match non-period until a period is seen
pat_id = re.compile("(^|\s)([^.]+).")

idmap = {}

def remap_id(m):
    before_word = m.group(1)
    word = m.group(2)
    if word in idmap:
        return before_word + idmap[word] + "."
    else:
        return m.group(0)  # return full matched string unchanged

def replace_ids(line, idmap):
    return re.sub(pat_id, remap_id, line)

with open(fname_idmap, "r") as f:
    next(f)  # discard first line with column header: "oldId newIds"
    for line in f:
        key, value = line.split()
        idmap[key] = value

with open(fname_in, "r") as f_in, open(fname_out, "w") as f_out:
    for line in f_in:
        line = replace_ids(line, idmap)
        f_out.write(line)

python - 替换巨大的 txt 制表符分隔文件的第一行中的文本

3 回答 3

Related

Reference