我一直在 R 中使用制表符包进行练习,并遇到以下问题。不幸的是,我无法提供可重现的示例,因为 pdf 是公司的财产,但我将详细描述问题。
我正在尝试阅读右上角有开始和结束日期的 PDF。当我打开 PDF 时,它们看起来很正常
Start: 01-Mar-2018
End: 31-Mar-2018
现在有趣的部分。当我突出显示它们并使用 Ctrl+C 将它们复制到此处时,是粘贴到 R 时的结果。
:tttt: 11-rrr-8118
tt:: 11-rrr-8118
这与会给出的废话完全相同extract_text(path, pages=1)
。很多 t::ttttt:ttt... 我的问题是这个 PDF 中有一些安全性还是我只需要找出正确的编码或者因为这个 PDF 是从系统自动创建的,所以所有东西都有一些奇怪的符号?