2

我是 NLP 的初学者,我很困惑如何处理<s></s>符号来计算一元模型的计数?我应该计算它们还是忽略它们?

4

1 回答 1

1

如果我理解正确,<s>并且将</s>特殊(假)一元组作为每个文本的第一个和最后一个一元组(实际上是前一个和最后一个),那么它们就不需要一元组,因为任何字符串都包含这些一元组因此它们没有提供额外的信息。

这种特殊的 unigrams 在高阶 n-gram 的情况下很有用:例如,它允许从 1 个单词的字符串中提取,例如hello2 个 bigrams:<s> hellohello </s>或 3 个 trigrams:<s0> <s1> hello, <s1> hello </s1>, hello </s1> </s0>

于 2015-04-22T18:29:16.110 回答