我正在解析 PDF 文件并且有 2 个地址左对齐。除了城市下方的线外,州和邮政编码也分开。
右边的地址总是从索引 > 150 开始(从行首开始)。我可以从索引 > 150 触发任何文本的匹配并在 \n 换行处停止,但这种方法似乎内存密集且速度慢。我在 pdf 中有大约 200 行文本。我也知道地址行(总共 7 行)总是出现在第 40 行和第 48 行之间。寻找一些简单的替代方法来解析这些数据。
1011 VALLEY BELT RD 4569 EAST TWINSBURG ROAD\n
open (FILE, "pdftotext -layout file.pdf - |");
while(<FILE>) {
$i++;
my($line) = $_;
$line=~s/\n$/ | [NL]/; # just to visualize the newline on screen
print "\n<div class=\"line\"><div>$i</div>$line</div>";
}
close FILE;
pdf由应用程序生成,因此它们是受控的