text - 从 DocumentTermMatrix 创建概率矩阵

Question

我是一名经济学家，现在我正在分析一些定性和文本数据。这对我来说是新的。

我想根据我的采访语料库为文本预测创建一个马尔可夫模型。我已经用 tm 包分析了一个语料库，在创建 DocumentTermMatrix 和 TermDocumentMatrix （等效）与 bigrams（词对）之后，我想计算每对词的概率矩阵，以便将其用于进一步的马尔可夫链预测. 所以，我从http://www.salemmarafi.com/code/twitter-naive-bayes/尝试了这篇文章

probabilityMatrix <-function(docMatrix)
{
  # Sum up the term frequencies
  termSums<-cbind(colnames(as.matrix(docMatrix)),as.numeric(colSums(as.matrix(docMatrix))))
  # Add one
  termSums<-cbind(termSums,as.numeric(termSums[,2])+1)
  # Calculate the probabilties
  termSums<-cbind(termSums,(as.numeric(termSums[,3])/sum(as.numeric(termSums[,3]))))
  # Calculate the natural log of the probabilities
  termSums<-cbind(termSums,log(as.numeric(termSums[,4])))
  # Add pretty names to the columns
  colnames(termSums)<-c("term","count","additive","probability","lnProbability")
  termSums
   }

但我确信这不是解决我的问题的正确方法，因为此代码计算每对的频率，但不考虑从一个词到另一个词的转换概率。我还看到在 phyton 中也有一些文本预测算法的实现，也在 Java 中（参见 github），但我无法将其翻译成 R。有些人有一段代码可以执行这种分析R或知道直接执行它的包？

提前致谢

何塞

text - 从 DocumentTermMatrix 创建概率矩阵

0 回答 0

Related

Reference