r - 如何阅读 PDF 直到某一行？

Question

我正在为许多研究论文做循环。在这里，我想从阅读文档中提取内容。

我怎样才能使 R 只读取到最后一行，那里有很多点，并指示为结束行？如下图所示：

[数字] [字母][点][数字]

在此处输入图像描述

如果没有多个点，则停止并指示为结束线。

例如，我有以下代码，但它不适用于其他文档，因为有时会有不同的结尾。

if(((nrow(pdf[pdf$text == "References ." & pdf$element_id == '2',]) == 1) & !(exists("endline"))) == 1){

endline <- pdf$line_id[pdf$text == "References ." & pdf$element_id == '2']
   }

R 读取整个文档并仅识别到最后一个有许多点的位置。

score 0 · Accepted Answer

这个正则表达式应该有帮助：

(\.+\s*\d+\n)(?!\d)

解释：

(\.+\s*\d+\n)- 点和页码（可选空格），后跟行尾字符

(?!\d)- 负前瞻，这意味着下一行的开头没有数字。

负前瞻具有找到模式最后一次出现的魔力。

工作示例：https ://regex101.com/r/gIrhxf/2

r - 如何阅读 PDF 直到某一行？

1 回答 1

Related

Reference