2

我正在尝试提取公司年度报告的文本。它的设计以两列居多。所以我不知道如何正确提取它,因为在带有 pdftools 包的 RI 中,我提取了第二列第一行旁边的第一列第一行,而不是第一列的第二行。

这是我的代码:

library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")

我怎样才能正确地做到这一点?

4

1 回答 1

-1

我的答案是使用 ABBY Fine reader 或等效的 OCR 软件。我尝试过使用 R 中可用的开源软件来使用相同类型的数据,但它对我的目的来说不够好

于 2021-08-24T15:52:17.883 回答