由于目前问题中有一个字符串可用,因此我决定自己创建一个示例数据。我希望这与您的实际数据接近。正如 Nate 所建议的,使用 tidytext 包是一种方法。在这里,我首先删除了数字、标点符号、括号中的内容以及括号本身。然后,我使用 . 分割每个字符串中的单词unnest_tokens()
。然后,我删除了停用词。由于您有自己的停用词,因此您可能需要创建自己的词典。我只是jura
在filter()
部分中添加了。按 id 对数据进行分组,我将单词组合起来以在summarise()
. 请注意,我使用jura
而不是Jura
. 这是因为unnest_tokens()
将大写字母转换为小写字母。
mydata <- data.frame(id = 1:2,
text = c("112773-Tablet for cleaning the hydraulic system Jura (6 pcs.) 62715",
"1234567-Tablet for cleaning the mambojumbo system Jura (12 pcs.) 654321"),
stringsAsFactors = F)
library(dplyr)
library(tidytext)
data(stop_words)
mutate(mydata, text = gsub(x = text, pattern = "[0-9]+|[[:punct:]]|\\(.*\\)", replacement = "")) %>%
unnest_tokens(input = text, output = word) %>%
filter(!word %in% c(stop_words$word, "jura")) %>%
group_by(id) %>%
summarise(text = paste(word, collapse = " "))
# id text
# <int> <chr>
#1 1 tablet cleaning hydraulic system
#2 2 tablet cleaning mambojumbo system
另一种方法如下。在这种情况下,我没有使用unnest_tokens()
.
library(magrittr)
library(stringi)
library(tidytext)
data(stop_words)
gsub(x = mydata$text, pattern = "[0-9]+|[[:punct:]]|\\(.*\\)", replacement = "") %>%
stri_split_regex(str = ., pattern = " ", omit_empty = TRUE) %>%
lapply(function(x){
foo <- x[which(!x %in% c(stop_words$word, "Jura"))] %>%
paste(collapse = " ")
foo}) %>%
unlist
#[1] "Tablet cleaning hydraulic system" "Tablet cleaning mambojumbo system"