我正在尝试提取公司年度报告的文本。它的设计以两列居多。所以我不知道如何正确提取它,因为在带有 pdftools 包的 RI 中,我提取了第二列第一行旁边的第一列第一行,而不是第一列的第二行。
这是我的代码:
library(pdftools)
readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f")
我怎样才能正确地做到这一点?