如果我理解正确,<s>
并且将</s>
特殊(假)一元组作为每个文本的第一个和最后一个一元组(实际上是前一个和最后一个),那么它们就不需要一元组,因为任何字符串都包含这些一元组因此它们没有提供额外的信息。
这种特殊的 unigrams 在高阶 n-gram 的情况下很有用:例如,它允许从 1 个单词的字符串中提取,例如hello
2 个 bigrams:<s> hello
和hello </s>
或 3 个 trigrams:<s0> <s1> hello
, <s1> hello </s1>
, hello </s1> </s0>
。