0

我正在尝试编写一个循环来对数据框执行以下操作:

对于“名称”列中的每个名称,检查“推荐”列中是否存在粗略匹配(通过 agrep() 完成)。如果存在匹配项,请将“推荐”列中与名称大致匹配的所有单元格替换为“推荐”。

到目前为止,这是我的代码:

for (i in 1:1000){
 for (q in 1:length(agrep(c$Name[i], c$Referal))){
  if (length(agrep(c$Name[i], c$Referal)>0)){
   c$Referal[agrep(c$Name[i], c$Referal)[q]]<-'panda'
  }
 }
}

但是,此代码(在运行 20 分钟后)将“推荐”列中的所有单元格替换为“推荐”。我想知道第一行中的“i”在整个循环中是否保持不变?显然是一个笨重的代码块,但我想不出它为什么会这样做......

一个例子是:

Name <- c('michael jordan', 'carrot', 'ginger')
Referral <-('internet', 'facebook', 'mike jordan')
df <- data.frame(Name, Referral)

运行该函数后,理想情况下 df$Referral[3]=='referral' 将为 TRUE。

4

2 回答 2

0

您是否尝试过使用该value=TRUE选项?

照原样,您的代码从agrep(). 使用value=TRUE应该只返回匹配的对象。

编辑:这里有一些代码可以帮助您了解agrep()返回的内容以及它在循环中的工作方式。

Name <- c('michael jordan', 'carrot', 'ginger')
Referral <- c('internet', 'facebook', 'mike jordan')
df <- data.frame(Name, Referral)    

agrep(df$Name[1], df$Referral, max = 5, value = TRUE)

# [1] "mike jordan"

length(agrep(df$Name[1], df$Referral, max = 5, value = TRUE))

# [1] 1

agrep(df$Name[1], df$Referral, max.distance = 0.5)

# integer(0)

df$Referral[agrep(df$Name[1], df$Referral)[1]]

# NULL

for (i in 1:3){
  for (q in 1:length(agrep(df$Name[i], df$Referral))){
    if (length(agrep(df$Name[i], df$Referral)>0)){
      df$Referral[agrep(df$Name[i], df$Referral)[q]] <-'panda'
    }
  }
}

只是为了更清楚地说明max论点的重要性。这里有 3 个示例,请记住integer(0)R 中的零长度向量。

> agrep(df$Name[1], df$Referral) 
integer(0) 
> agrep(df$Name[1], df$Referral, max.distance = 0.2) 
integer(0) 
> agrep(df$Name[1], df$Referral, max.distance = 0.5) 
[1] 3 
于 2017-07-18T14:55:47.340 回答
0

不确定是否agrep会以您期望的方式为您工作:

agrep('michael jordan', 'mike jordan')
integer(0)

所以我稍微改变了你的数据。mike jordan现在在两个向量中:

Name <- c('mike jordan', 'carrot', 'ginger')
Referral <-c('internet', 'facebook', 'mike jordan')

我还将逻辑条件更改为Referral[x] %in% Name. 然后你可以做

library(tidyverse)
newReferral <- map_chr(Referral, ~ifelse(.x %in% Name,'referral', .x))

[1] "internet" "facebook" "referral"
于 2017-07-18T15:34:09.710 回答