0

我正在为许多研究论文做循环。在这里,我想从阅读文档中提取内容。

我怎样才能使 R 只读取到最后一行,那里有很多点,并指示为结束行?如下图所示:

[数字] [字母][点][数字]

在此处输入图像描述

如果没有多个点,则停止并指示为结束线。

例如,我有以下代码,但它不适用于其他文档,因为有时会有不同的结尾。

if(((nrow(pdf[pdf$text == "References ." & pdf$element_id == '2',]) == 1) & !(exists("endline"))) == 1){

endline <- pdf$line_id[pdf$text == "References ." & pdf$element_id == '2']
   }

R 读取整个文档并仅识别到最后一个有许多点的位置。

4

1 回答 1

0

这个正则表达式应该有帮助:

(\.+\s*\d+\n)(?!\d)

解释:

(\.+\s*\d+\n)- 点和页码(可选空格),后跟行尾字符

(?!\d)- 负前瞻,这意味着下一行的开头没有数字。

负前瞻具有找到模式最后一次出现的魔力。

工作示例:https ://regex101.com/r/gIrhxf/2

于 2019-04-11T12:22:45.853 回答