perl - Perl 遍历文件中的每一行并附加到另一个文件中每一行的末尾

Question

我有两个包含以下内容的文本文件：

文件1.txt

dog
cat
antelope

文件2.txt

1
2
Barry

我想要实现的输出如下：

dog1
dog2
dogBarry
cat1
cat2
catBarry
antelope1
antelope2
antelopeBarry

他们按照我的方式去做：

    open (FILE1, "<File1.txt") || die $!;
    open (FILE2, "<File2.txt") || die $!;

    my @animals = (<FILE1>);  #each line of the file into an array
    my @otherStrings = (<FILE2>);   #each line of the file into an array

    close FILE1 || die $!;
    close FILE2 || die $!;

    my @bothTogether;
    foreach my $animal (@animals) {
    chomp $animal;
            foreach my $otherString (@otherStrings) {
                    chomp $otherString;
                    push (@bothTogether,  "$animal$otherString");
            }
   }
   print @bothTogether;

我完成它的方式有效，但我确信这不是最好的方式，特别是当文件都可能包含数千行时？

这样做的最好方法是什么，也许使用哈希？

score 5 · Accepted Answer

您的方法适用于具有数千行的文件。那真的没那么大。对于数百万行，这可能是一个问题。

但是，您可以通过仅将一个文件读入内存并立即打印结果而不是将它们存储在数组中来减少代码的内存使用量：

use warnings;
use strict;

open my $animals, '<', 'File1.txt' or die "Can't open animals: $!";
open my $payloads, '<', 'File2.txt' or die "Can't open payloads: $!";

my @payloads = <$payloads>;   #each line of the file into an array
close $payloads or die "Can't close payloads: $!";

while (my $line = <$animals>) {
    chomp $line;
    print $line.$_ foreach (@payloads);
}
close $animals or die "Can't close animals: $!";

对于两个大小相同的大文件，这将使用大约 1/4 的原始代码内存。

更新：我还编辑了代码以包含 Simbabque 对其现代化的好建议。

更新 2：正如其他人所指出的，您不能将两个文件都读入内存，而是在动物文件的每一行上逐行浏览有效负载文件。但是，这会慢得多。除非绝对必要，否则应避免。我建议的方法与您的原始代码的速度大致相同。

score 1 · Accepted Answer

除了某些 Modern Perl 方面（open例如两个参数）之外，您的代码非常简单。

我能看到的唯一改进是您可以将内部移动chomp到一个额外的循环中，也许在您阅读文件时进行咀嚼。那会节省一些时间。但总而言之，如果您想对其他数据的每一行的数据做一些事情，那么您做对了。

由于优先级，您应该使用or die而不是，|| die最终输出将是一长行，因为数组的项目中没有更多的换行符。

更新：@FrankB 在他的上述评论中提出了一个很好的建议：如果您的文件很大并且您正在努力解决内存问题，您不应该将它们吞入并放入两个数组中，而是逐行读取和处理第一个，并打开并阅读这些第一行中的每一行的第二行。这需要更长的时间，但可以节省大量内存。然后，您也可以直接输出结果，而不是将它们推送到结果数组中。

perl - Perl 遍历文件中的每一行并附加到另一个文件中每一行的末尾

2 回答 2

Related

Reference