1

快速提问:

R 文本分析包 Quanteda - findSequence 提供以下输出,但我在某些列上找不到文档:

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

有人可以帮助定义z,p和mue是p =概率吗?如果是这样,如何计算。帮助说,“该算法基于 Blaheta 和 Johnson 的“多词动词的无监督学习”。但没有提供输出组件的更多细节。

看起来很有趣的功能,但更多信息会有所帮助。

4

1 回答 1

1

查看函数代码,然后检查论文,z是根据 lambda(对数优势比)与 sigma(渐近标准误差)计算得出的。就像 Pierre 评论的那样,这是一个 z 分数,p是一个概率1 - stats::pnorm(z)

mue在 Blaheta 和 Johnson 的“多词动词的无监督学习”第 ​​2.3 节的第二段中进行了解释。“µ = λ − 3.29σ....这对应于将测量值 µ 和 µ1 设置为 0.001 置信区间的下限...数据(约翰逊,2001 年)。”

如果您转到第 2.3 节,您可以看到更多详细信息:

我们提出了两种不同的关联度量 μ 和 μ1,我们在下面将其称为“所有子元组”和“一元子元组”度量。正如我们在下面解释的那样,它们似乎可以识别出非常不同的搭配,因此两者在某些情况下都很有用。这些度量分别是对 λ 和 λ1 的估计,它们是某些对数线性模型的特定参数。在计数较小的情况下,λ 和 λ1 的估计值可能有噪声,因此在与来自大计数数据的值进行比较时,应该以某种方式对来自小计数数据的高值进行折扣。为此,我们还分别估计 λ 和 λ1 的渐近标准误差 σ 和 σ1,并设置 µ = λ - 3.29σ 和 µ1 = λ1 - 3.29σ1。这对应于将度量 µ 和 µ1 设置为 0 的下限。

有关计算 λ 和 σ 的详细信息(和其他参考资料)也在第 2.3 节中

于 2016-09-15T02:31:40.097 回答