1

我是一名经济学家,现在我正在分析一些定性和文本数据。这对我来说是新的。

我想根据我的采访语料库为文本预测创建一个马尔可夫模型。我已经用 tm 包分析了一个语料库,在创建 DocumentTermMatrix 和 TermDocumentMatrix (等效)与 bigrams(词对)之后,我想计算每对词的概率矩阵,以便将其用于进一步的马尔可夫链预测. 所以,我从http://www.salemmarafi.com/code/twitter-naive-bayes/尝试了这篇文章

probabilityMatrix <-function(docMatrix)
{
  # Sum up the term frequencies
  termSums<-cbind(colnames(as.matrix(docMatrix)),as.numeric(colSums(as.matrix(docMatrix))))
  # Add one
  termSums<-cbind(termSums,as.numeric(termSums[,2])+1)
  # Calculate the probabilties
  termSums<-cbind(termSums,(as.numeric(termSums[,3])/sum(as.numeric(termSums[,3]))))
  # Calculate the natural log of the probabilities
  termSums<-cbind(termSums,log(as.numeric(termSums[,4])))
  # Add pretty names to the columns
  colnames(termSums)<-c("term","count","additive","probability","lnProbability")
  termSums
   } 

但我确信这不是解决我的问题的正确方法,因为此代码计算每对的频率,但不考虑从一个词到另一个词的转换概率。我还看到在 phyton 中也有一些文本预测算法的实现,也在 Java 中(参见 github),但我无法将其翻译成 R。有些人有一段代码可以执行这种分析R或知道直接执行它的包?

提前致谢

何塞

4

0 回答 0