我正在尝试从非结构化文本中提取子字符串。例如,假设一个国家名称向量:
countries <- c("United States", "Israel", "Canada")
如何传递此字符值向量以从非结构化文本中提取精确匹配。
text.df <- data.frame(ID = c(1:5),
text = c("United States is a match", "Not a match", "Not a match",
"Israel is a match", "Canada is a match"))
在此示例中,所需的输出将是:
ID text
1 United States
4 Israel
5 Canada
到目前为止,我一直在使用gsub
删除所有不匹配项,然后删除然后删除具有空值的行。我也一直在使用str_extract
stringr 包,但没有成功让正则表达式的参数正确。任何帮助将不胜感激!