4

我有一个巨大的文本文件,它的前五行如下所示:

This is fist line
This is second line
This is third line
This is fourth line
This is fifth line

现在,我想在该文件第三行的随机位置写一些东西,它将用我正在编写的新字符串替换该行中的字符。我可以使用以下代码实现这一目标:

use strict;
use warnings;

my @pos = (0);
open my $fh, "+<", "text.txt";

while(<$fh) {
    push @pos, tell($fh);
}

seek $fh , $pos[2]+1, 0;
print $fh "HELLO";

close($fh);

但是,我无法用同样的方法弄清楚如何从该文件中删除整个第三行,以便文本如下所示:

This is fist line
This is second line
This is fourth line
This is fifth line

我不想将整个文件读入数组,也不想使用 Tie::File。是否可以使用 seek 和 tell 来实现我的要求?解决方案将非常有帮助。

4

3 回答 3

7

文件是一个字节序列。我们可以替换(覆盖)其中一些,但我们将如何删除它们?一旦文件被写入,它的字节就不能以任何方式从序列中“拉出”或“空白”。(可以通过根据需要截断文件来消除文件末尾的那些。)

其余内容必须“向上”移动,以便要删除的文本后面的内容会覆盖它。我们必须重写文件的其余部分。实际上,重写整个文件通常要简单得多。

作为一个非常基本的例子

use warnings 'all';
use strict;
use File::Copy qw(move);

my $file_in = '...';
my $file_out = '...';  # best use `File::Temp`

open my $fh_in,  '<', $file_in  or die "Can't open $file_in: $!";
open my $fh_out, '>', $file_out or die "Can't open $file_out: $!";

# Remove a line with $pattern
my $pattern = qr/this line goes/;

while (<$fh_in>) 
{
    print $fh_out $_  unless /$pattern/;
}
close $fh_in;
close $fh_out;

# Rename the new fie into the original one, thus replacing it
move ($file_out, $file_in) or die "Can't move $file_out to $file_in: $!";

这会将输入文件的每一行写入输出文件,除非一行匹配给定的模式。然后重命名该文件,替换原始文件(不涉及数据复制)。请参阅perlfaq5 中的此主题

由于我们确实使用了临时文件,因此我建议使用核心模块File::Temp


'+<'通过以更新模式打开以仅覆盖文件的一部分,这可能会更有效,但也更复杂。您迭代直到带有模式的行,记录 ( tell) 其位置和行长,然后复制内存中所有剩余的行。然后seek回到减去该行长度的位置,并转储复制的文件的其余部分,覆盖该行及其后面的所有内容。

请注意,现在文件其余部分的数据被复制了两次,尽管一份副本在内存中。如果要删除的行在一个非常大的文件中很远,那么解决这个问题可能是有意义的。如果有更多行要删除,这会变得更加混乱。


写出一个新文件并将其复制到原始文件上会更改文件的inode编号。对于某些工具或程序来说,这可能是个问题,如果是,您可以通过以下任一方式更新原始文件

  • 写出新文件后,打开它进行读取并打开原始文件进行写入。这会破坏原始文件。然后从新文件中读取并写入原始文件,从而将内容复制回同一个inode。完成后删除新文件。

  • 以读写模式 ( '+<') 打开原始文件。写入新文件后,seek到原始文件的开头(或要覆盖的位置)并将新文件的内容写入其中。如果新文件较短,请记住还要设置文件结尾,

    truncate $fh, tell($fh); 
    

复制完成后。这需要一些小心,第一种方法通常可能更安全。

如果文件不是很大,则可以将新的“文件”作为数组或字符串“写入”内存中。

于 2016-10-26T18:00:03.890 回答
0

在 Perl 中使用sedLinux 命令行中的命令:

my $return = `sed -i '3d' text.txt`;

其中“3d”表示删除第 3 行。

于 2016-10-26T18:18:28.477 回答
-1

perlrun查看 perl 本身如何“就地”修改文件是很有用的。

鉴于:

$ cat text.txt
This is fist line
This is second line
This is third line
This is fourth line
This is fifth line

-i通过使用and-p开关来调用 Perl ,您显然可以像 sed 一样“就地修改” :

$ perl -i -pe 's/This is third line\s*//' text.txt
$ cat text.txt
This is fist line
This is second line
This is fourth line
This is fifth line

但是,如果您查阅 Perl Cookbook 配方 7.9(或查看perlrun),您会看到:

$ perl -i -pe 's/This is third line\s*//' text.txt

相当于:

while (<>) {
    if ($ARGV ne $oldargv) {           # are we at the next file?
        rename($ARGV, $ARGV . '.bak');
        open(ARGVOUT, ">$ARGV");       # plus error check
        select(ARGVOUT);
        $oldargv = $ARGV;
    }
    s/This is third line\s*//;
}
continue{
    print;
}
select (STDOUT);                      # restore default output
于 2016-10-28T19:32:28.190 回答