r - R - 查找顺序相反的单词的重复项

Question

我有一个 data.table，其中有一列包含职业头衔名称。我想找出重复的职业，但以相反的顺序编写（例如作家广告和广告作家）。这是我的数据的简化版本以及我想得到的结果

data = data.table(
  ID = as.character(c("advertisings writer","writer advertisings","setter","drill setter","setter drill","agent claims","claims agent","engineer"))
)
data_result = data.table(
  ID = as.character(c("advertisings writer","setter","drill setter","agent claims","engineer"))
)

这是我一直在使用的代码。

data[,b:= strsplit(ID," ")]

data <- data[,.(b=unlist(b)),by = setdiff(names(data),'b')]
setorderv(data,cols=c("ID","b"))
data <- data[,bb:=list(list(unique(b))),by="ID"][,.SD[1],by=c("ID"),.SDcols=c("bb")]
data[,b:=lapply(bb,paste,collapse=' ')]
data[,b:=unlist(b)]

unique(data,by="b")

由于我正在处理相当大的数据集，这种方法非常耗时。

谢谢

score 0 · Accepted Answer

一个可能的解决方案data.table：

将字符串拆分为单词
对单词进行排序
粘贴排序的单词
获取唯一值

library(data.table)

data[,ID:=sapply(sapply(stringr::str_split(ID,' '),sort),function(x) paste(x,collapse=' '))]
unique(data)

                    ID
1: advertisings writer
2:              setter
3:        drill setter
4:        agent claims
5:            engineer

score 0 · Accepted Answer

这是一个igraph选项

library(dplyr)
library(igraph)

data[, TO := gsub("(\\w+)\\s(\\w+)", "\\2 \\1", ID)] %>%
  graph_from_data_frame(directed = FALSE) %>%
  get.data.frame() %>%
  unique() %>%
  subset(select = from)

这使

                 from
1 advertisings writer
3              setter
4        drill setter
6        agent claims
8            engineer

r - R - 查找顺序相反的单词的重复项

2 回答 2

Related

Reference