r - Quanteda findSequence 函数的输出定义 - 用于文本分析的 R 包

Question

快速提问：

R 文本分析包 Quanteda - findSequence 提供以下输出，但我在某些列上找不到文档：

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

有人可以帮助定义z，p和mue是p =概率吗？如果是这样，如何计算。帮助说，“该算法基于 Blaheta 和 Johnson 的“多词动词的无监督学习”。但没有提供输出组件的更多细节。

看起来很有趣的功能，但更多信息会有所帮助。

score 1 · Accepted Answer

查看函数代码，然后检查论文，z是根据 lambda（对数优势比）与 sigma（渐近标准误差）计算得出的。就像 Pierre 评论的那样，这是一个 z 分数，p是一个概率1 - stats::pnorm(z)。

mue在 Blaheta 和 Johnson 的“多词动词的无监督学习”第 2.3 节的第二段中进行了解释。“µ = λ − 3.29σ....这对应于将测量值 µ 和 µ1 设置为 0.001 置信区间的下限...数据（约翰逊，2001 年）。”

如果您转到第 2.3 节，您可以看到更多详细信息：

我们提出了两种不同的关联度量 μ 和 μ1，我们在下面将其称为“所有子元组”和“一元子元组”度量。正如我们在下面解释的那样，它们似乎可以识别出非常不同的搭配，因此两者在某些情况下都很有用。这些度量分别是对 λ 和 λ1 的估计，它们是某些对数线性模型的特定参数。在计数较小的情况下，λ 和 λ1 的估计值可能有噪声，因此在与来自大计数数据的值进行比较时，应该以某种方式对来自小计数数据的高值进行折扣。为此，我们还分别估计 λ 和 λ1 的渐近标准误差 σ 和 σ1，并设置 µ = λ - 3.29σ 和 µ1 = λ1 - 3.29σ1。这对应于将度量 µ 和 µ1 设置为 0 的下限。

有关计算 λ 和 σ 的详细信息（和其他参考资料）也在第 2.3 节中

r - Quanteda findSequence 函数的输出定义 - 用于文本分析的 R 包

1 回答 1

Related

Reference