3

我有一个属性文件,比如说

##
## Start of property1
##
##
Property1=\
a:b,\
a1:b1,\
a2,b2
##
## Start of propert2
##
Property2=\
c:d,\
c1:d1,\
c2,d2

请注意,任何给定属性的值都可以拆分为多行。

我想用 Perl 读取这个属性文件。这在 Java 中运行良好,因为 Java 支持使用反斜杠的多行值,但在 Perl 中这是一场噩梦。

在上面的属性文件中,有两个属性 -Property1并且Property2- 每个都与一个字符串相关联,我可以根据分隔符,:

对于给定的属性(比如Property1)和给定的列(比如a1),我需要返回第二列(这里b1

代码应该能够忽略注释、空格等。

提前致谢

4

2 回答 2

5

大多数文本处理——包括处理反斜杠续行——在 Perl 中都非常简单。你所需要的只是一个像这样的读取循环。

while (<>) {
  $_ .= <> while s/\\\n// and not eof;
}

下面的程序做我认为你想要的。我print在读取循环中进行了调用,以显示已在续行上聚合的完整记录。我还演示了提取b1您作为示例提供的字段,并显示了输出,Data::Dump以便您可以看到创建的数据结构。

use strict;
use warnings;

my %data;

while (<DATA>) {
  next if /^#/;
  $_ .= <DATA> while s/\\\n// and not eof;
  print;
  chomp;
  my ($key, $values) = split /=/;
  my @values = map [ split /:/ ], split /,/, $values;
  $data{$key} = \@values;
}

print $data{Property1}[1][1], "\n\n";

use Data::Dump;
dd \%data;


__DATA__
##
## Start of property1
##
##
Property1=\
a:b,\
a1:b1,\
a2,b2
##
## Start of propert2
##
Property2=\
c:d,\
c1:d1,\
c2,d2

输出

Property1=a:b,a1:b1,a2,b2
Property2=c:d,c1:d1,c2,d2
b1

{
  Property1 => [["a", "b"], ["a1", "b1"], ["a2"], ["b2"]],
  Property2 => [["c", "d"], ["c1", "d1"], ["c2"], ["d2"]],
}

更新

我再次阅读了您的问题,我认为您可能更喜欢数据的不同表示。此变体将属性值保留为哈希而不是数组数组,否则其行为是相同的

use strict;
use warnings;

my %data;

while (<DATA>) {
  next if /^#/;
  $_ .= <DATA> while s/\\\n// and not eof;
  print;
  chomp;
  my ($key, $values) = split /=/;
  my %values = map { my @kv = split /:/; @kv[0,1] } split /,/, $values;
  $data{$key} = \%values;
}

print $data{Property1}{a1}, "\n\n";

use Data::Dump;
dd \%data;

输出

Property1=a:b,a1:b1,a2,b2
Property2=c:d,c1:d1,c2,d2
b1

{
  Property1 => { a => "b", a1 => "b1", a2 => undef, b2 => undef },
  Property2 => { c => "d", c1 => "d1", c2 => undef, d2 => undef },
}
于 2012-10-09T13:10:58.767 回答
0

假设您的文件不是太大,这是一个简单的方法:

use strict;
use warnings;

open FILE, "my_file.txt" or die "Can't open file!";

{
    local $/;
    my $file = <FILE>;
    #If \ is found at the end of the line, delete the following line break.
    $file =~ s/\\\n//gs;
}

每当一行以 结尾时\,都会删除以下换行符。这会将每个多行属性放在一行上。

缺点是这会将整个文件读入内存。如果您的输入文件非常大,您可以将其调整为逐行遍历文件的算法。

于 2012-10-09T12:43:41.190 回答