1

我正在为词袋模型构建自定义 ngram 矢量化器。我很奇怪——如果在对短文本进行矢量化时我发现了新的标记,而该标记在语料库词汇表中不存在,我该怎么办。应该跳过还是什么?

4

1 回答 1

2

您可以跳过它,也可以在词汇表中为未知单词添加一个特殊标记,例如,将以前看不见的单词替换为"UNK",然后您可以像计算任何其他单词一样计算它们。此外,为了解决训练数据中没有任何UNKs 的问题,您可以将语料库中仅出现一次的所有单词替换为UNK

于 2016-10-21T00:14:39.803 回答