1

我一直在 R 中使用制表符包进行练习,并遇到以下问题。不幸的是,我无法提供可重现的示例,因为 pdf 是公司的财产,但我将详细描述问题。

我正在尝试阅读右上角有开始和结束日期的 PDF。当我打开 PDF 时,它们看起来很正常

Start: 01-Mar-2018
  End: 31-Mar-2018

现在有趣的部分。当我突出显示它们并使用 Ctrl+C 将它们复制到此处时,是粘贴到 R 时的结果。

:tttt: 11-rrr-8118
tt:: 11-rrr-8118

这与会给出的废话完全相同extract_text(path, pages=1)。很多 t::ttttt:ttt... 我的问题是这个 PDF 中有一些安全性还是我只需要找出正确的编码或者因为这个 PDF 是从系统自动创建的,所以所有东西都有一些奇怪的符号?

4

1 回答 1

1

我想到了。此 PDF 主要由元数据(不知道)创建,R 中用于访问 PDF 中元数据的好工具是pdftools.

library(pdftools)

pdf_info(path.pdf)

你可以找出所有重要的元数据位。

于 2018-04-09T12:52:31.673 回答