r - 从 R 中包含两列的 PDF 中提取文本

Question

我正在尝试提取公司年度报告的文本。它的设计以两列居多。所以我不知道如何正确提取它，因为在带有 pdftools 包的 RI 中，我提取了第二列第一行旁边的第一列第一行，而不是第一列的第二行。

这是我的代码：

library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")

我怎样才能正确地做到这一点？

score -1 · Accepted Answer

我的答案是使用 ABBY Fine reader 或等效的 OCR 软件。我尝试过使用 R 中可用的开源软件来使用相同类型的数据，但它对我的目的来说不够好

r - 从 R 中包含两列的 PDF 中提取文本

1 回答 1

Related

Reference