我是新来的,我的问题是数学而不是编程性质的,我想就我的方法是否有意义获得第二意见。
我试图使用包中的函数来查找我的语料库中单词之间的findAssocs
关联tm
。尽管它似乎在通过软件包提供的数据(例如纽约时报和美国国会)上表现相当不错,但我对它在我自己的不太整洁的数据集上的表现感到失望。它似乎很容易被包含多个重复相同单词的稀有文档扭曲,这似乎在它们之间建立了强烈的关联。我发现余弦度量可以更好地了解术语的相关性,即使基于文献,它也倾向于用于度量文档的相似性而不是术语。让我们使用RTextTools
包中的 USCongress 数据来说明我的意思:
首先,我将设置所有...
data(USCongress)
text = as.character(USCongress$text)
corp = Corpus(VectorSource(text))
parameters = list(minDocFreq = 1,
wordLengths = c(2,Inf),
tolower = TRUE,
stripWhitespace = TRUE,
removeNumbers = TRUE,
removePunctuation = TRUE,
stemming = TRUE,
stopwords = TRUE,
tokenize = NULL,
weighting = function(x) weightSMART(x,spec="ltn"))
tdm = TermDocumentMatrix(corp,control=parameters)
假设我们有兴趣研究“政府”和“外国”之间的关系:
# Government: appears in 37 docs and between then it appears 43 times
length(which(text %like% " government"))
sum(str_count(text,"government"))
# Foreign: appears in 49 document and between then it appears 56 times
length(which(text %like% "foreign"))
sum(str_count(text,"foreign"))
length(which(text[which(text %like% "government")] %like% "foreign"))
# together they appear 3 times
# looking for "foreign" and "government"
head(as.data.frame(findAssocs(tdm,"foreign",0.1)),n=10)
findAssocs(tdm, "foreign", 0.1)
countri 0.34
lookthru 0.30
tuberculosi 0.26
carryforward 0.24
cor 0.24
malaria 0.23
hivaid 0.20
assist 0.19
coo 0.19
corrupt 0.19
# they do not appear to be associated
现在让我们添加另一个包含重复 50 次“外国政府”的文件:
text[4450] = gsub("(.*)",paste(rep("\\1",50),collapse=" "),"foreign government")
corp = Corpus(VectorSource(text))
tdm = TermDocumentMatrix(corp,control=parameters)
#running the association again:
head(as.data.frame(findAssocs(tdm,"foreign",0.1)),n=10)
findAssocs(tdm, "foreign", 0.1)
govern 0.30
countri 0.29
lookthru 0.26
tuberculosi 0.22
cor 0.21
carryforward 0.20
malaria 0.19
hivaid 0.17
assist 0.16
coo 0.16
正如您所看到的,现在这是一个不同的故事,这一切都归结为一个文档。
在这里,我想做一些非常规的事情:使用余弦来查找文档空间中的术语之间的相似性。该度量往往用于查找文档而不是术语之间的相似性,但我认为没有理由不能使用它来查找单词之间的相似性。在传统意义上,文档是向量,而术语是轴,我们可以根据这些文档之间的角度检测它们的相似性。但是术语文档矩阵是文档术语矩阵的转置,同样,我们可以在文档空间中投影术语,即让您的文档成为轴,让您的术语成为您可以测量角度的向量。它似乎没有与简单相关性相同的缺点:
cosine(as.vector(tdm["government",]),as.vector(tdm["foreign",]))
[,1]
[1,] 0
除此之外,这两项措施似乎非常相似:
tdm.reduced = removeSparseTerms(tdm,0.98)
Proximity = function(tdm){
d = dim(tdm)[1]
r = matrix(0,d,d,dimnames=list(rownames(tdm),rownames(tdm)))
for(i in 1:d){
s = seq(1:d)[-c(1:(i-1))]
for(j in 1:length(s)){
r[i,s[j]] = cosine(as.vector(tdm[i,]),as.vector(tdm[s[j],]))
r[s[j],i] = r[i,s[j]]
}
}
diag(r) = 0
return(r)
}
rmat = Proximity(tdm.reduced)
# findAssocs method
head(as.data.frame(sort(findAssocs(tdm.reduced,"fund",0),decreasing=T)),n=10)
sort(findAssocs(tdm.reduced, "fund", 0), decreasing = T)
use 0.11
feder 0.10
insur 0.09
author 0.07
project 0.05
provid 0.05
fiscal 0.04
govern 0.04
secur 0.04
depart 0.03
# cosine method
head(as.data.frame(round(sort(rmat[,"fund"],decreasing=T),2)),n=10)
round(sort(rmat[, "fund"], decreasing = T), 2)
use 0.15
feder 0.14
bill 0.14
provid 0.13
author 0.12
insur 0.11
state 0.10
secur 0.09
purpos 0.09
amend 0.09
然而,令人惊讶的是,我还没有看到余弦被用于检测术语之间的相似性,这让我怀疑我是否错过了一些重要的事情。也许这种方法在我没有想到的方面存在缺陷。因此,对我所做的任何想法将不胜感激。
如果你已经做到了,感谢阅读!!
干杯