allWords
是 130 万个单词的向量,有一些重复。我想做的是创建两个向量:
一个字
B 随着单词的出现
这样我以后就可以将它们加入一个矩阵,从而将它们关联起来,例如: "mom", 3 ; “铅笔”,14等
for(word in allWords){
#get a vector with indexes for all repetitions of a word
temp <- which(allWords==word)
#Make "allWords" smaller - remove duplicates
allWords= allWords[-which(allWords==word)]
#Calculate occurance
occ<-length(temp)
#store
A = c(A,word)
B = c(B,occ)
}
这个 for 循环需要很长时间,我真的不知道为什么或我做错了什么。从文件中读取 130 万个单词最快只需 5 秒,但执行这些基本操作永远不会让算法终止。