1

如何使用 Perl 的CAM::PDF提取 PDF 文档的第一段?

4

2 回答 2

1
print CAM::PDF->new('file.pdf')->getPageText(1);

将从页面中获取所有文本。但是,CAM::PDF 绝对不是这项特定工作的最佳工具(我是作者)。我一时兴起添加了文本提取,只是想看看我能不能做到。

于 2009-10-28T02:46:24.387 回答
0

纯 PDF 真的不是一种标记语言。在特定位置绘制文本。有一种叫做Tagged PDF的东西,如果您的文档被标记,您的工作可能会更容易。

如果文本在 PDF 中存储为文本而不是图像,我倾向于通过 PDF 到文本翻译器运行文档并从中获取第一块文本。

于 2009-10-23T15:03:25.680 回答