r - R 需要永远计算一个简单的过程

Question

allWords是 130 万个单词的向量，有一些重复。我想做的是创建两个向量：

一个字

B 随着单词的出现

这样我以后就可以将它们加入一个矩阵，从而将它们关联起来，例如： "mom", 3 ; “铅笔”，14等

for(word in allWords){

    #get a vector with indexes for all repetitions of a word
    temp <- which(allWords==word) 
    #Make "allWords" smaller - remove duplicates
    allWords= allWords[-which(allWords==word)]
    #Calculate occurance
    occ<-length(temp)
    #store
    A = c(A,word)
    B = c(B,occ)
}

这个 for 循环需要很长时间，我真的不知道为什么或我做错了什么。从文件中读取 130 万个单词最快只需 5 秒，但执行这些基本操作永远不会让算法终止。

score 3 · Accepted Answer

使用table()：

> table(c("dog", "cat", "dog"))

cat dog 
  1   2

向量是相应数据框的列：

A <- as.data.frame(table(c("dog", "cat", "dog")))[,1]
B <- as.data.frame(table(c("dog", "cat", "dog")))[,2]

结果：

> A
[1] cat dog
Levels: cat dog
> B
[1] 1 2

score 2 · Accepted Answer

给出你的vector的大小，我觉得data.table在这种情况下可以做个好朋友_

> library(data.table)
> x <- c("dog", "cat", "dog")  # Ferdinand.kraft's example vector
> dtx <- data.table(x)         # converting `x` vector into a data.table object
> dtx[, .N, by="x"]            # Computing the freq for each word
     x N
1: dog 2
2: cat 1

score 0 · Accepted Answer

您可以使用list哈希“键：值”对之类的东西。

data = c("joe", "tom", "sue", "joe", "jen")

aList = list()

for(i in data){
    if (length(aList[[i]]) == 0){
      aList[[i]] = 1
    } else {
      aList[[i]] = aList[[i]] + 1
    }
}

结果

$joe
[1] 2

$tom
[1] 1

$sue
[1] 1

$jen
[1] 1

r - R 需要永远计算一个简单的过程

3 回答 3

Related

Reference