当每个观察只有一个标记实例时,这里有一些关于使用 rm_between 的有用答案。但是,我有一个数据集,我想在其中提取“”中的内容,并且一些观察结果有多个实例。例如:
新鲜或冷藏的大西洋鲑鱼“Salmo salar”和多瑙河鲑鱼“Hucho hucho”
当我使用这段代码时,
library(qdapRegex)
rf <- data.frame(rm_between_multiple(H2$SE_DESC_EN, c("\"", "\""), c("\"", "\"")))
它创建了一个数据框,并为之前的同一行
"Fresh or chilled Atlantic salmon and Danube salmon"
被退回这是完美的。但是我需要丢失的数据。为了尝试保留它,我将代码稍微更改为:
H3 <- rm_between_multiple(H2$SE_DESC_EN, c("\"", "\""), c("\"", "\""), extract=TRUE)
用报价单中的数据创建一个列表。返回的同一行是:
c("Salmo salar", " and Danube salmon ", "Hucho hucho",
"Salmo salar", " and Danube salmon ", "Hucho hucho")
其中有引用中的数据,但在引用之间也有一些信息,并且正在重复。我在编程方面相当新,并且想知道是否有一种方法可以编写不包含这些引用之间信息的代码。