nlp - 如何处理和计算unigram LM？

Question

我是 NLP 的初学者，我很困惑如何处理<s>和</s>符号来计算一元模型的计数？我应该计算它们还是忽略它们？

score 1 · Accepted Answer

如果我理解正确，<s>并且将</s>特殊（假）一元组作为每个文本的第一个和最后一个一元组（实际上是前一个和最后一个），那么它们就不需要一元组，因为任何字符串都包含这些一元组因此它们没有提供额外的信息。

这种特殊的 unigrams 在高阶 n-gram 的情况下很有用：例如，它允许从 1 个单词的字符串中提取，例如hello2 个 bigrams：<s> hello和hello </s>或 3 个 trigrams：<s0> <s1> hello, <s1> hello </s1>, hello </s1> </s0>。

nlp - 如何处理和计算unigram LM？

1 回答 1

Related

Reference