我尝试使用 CAM::PDF 在 PERL 中解析以下文件
但是当我打开 PDF 时,我似乎得到了很多换行符。这是我的示例代码的快照。
my $file_name = 'file_3.pdf';
my $filecontent;
my @lines = '';
my $save = "/home/tejas/Projects/Richmond/pdf/";
$file_name = $save . $file_name;
my $doc = CAM::PDF->new($file_name) || die "$CAM::PDF::errstr\n";
foreach my $p ( 1 .. $doc->numPages() ) {
my $str = $doc->getPageText($p);
if (defined $str) {
CAM::PDF->asciify(\$str);
print $str;
}
}
我已经从file_3.pdf的链接下载并存储了pdf。请让我知道在解析时是否可以做任何更好的事情以将一些行拼接在一起(尤其是那些在单词中间断开的行)。