快速提问:
R 文本分析包 Quanteda - findSequence 提供以下输出,但我在某些列上找不到文档:
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len z p mue
3 first time 2 -0.4159751 0.6612859 -165.7366
8 political parties 2 -0.4159751 0.6612859 -165.7366
9 preserve protect 2 -0.4159751 0.6612859 -165.7366
有人可以帮助定义z,p和mue是p =概率吗?如果是这样,如何计算。帮助说,“该算法基于 Blaheta 和 Johnson 的“多词动词的无监督学习”。但没有提供输出组件的更多细节。
看起来很有趣的功能,但更多信息会有所帮助。