Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在为词袋模型构建自定义 ngram 矢量化器。我很奇怪——如果在对短文本进行矢量化时我发现了新的标记,而该标记在语料库词汇表中不存在,我该怎么办。应该跳过还是什么?
您可以跳过它,也可以在词汇表中为未知单词添加一个特殊标记,例如,将以前看不见的单词替换为"UNK",然后您可以像计算任何其他单词一样计算它们。此外,为了解决训练数据中没有任何UNKs 的问题,您可以将语料库中仅出现一次的所有单词替换为UNK。
"UNK"
UNK