word2vec - 为什么“[UNK]”这个词在 word2vec 词汇表中排在第一位？

翻译自：https://stackoverflow.com/questions/68440502 2021-07-19T12:26:58.617

90 次

如果词汇表是从频率较高的单词到频率较低的单词排序，则将“[UNK]”放在开头意味着它出现最多。但是如果“[UNK]”不是最常见的词怎么办？我应该根据它的频率把它放在词汇表的另一个地方吗？

我在做本教程时发现了这样的问题-> https://www.tensorflow.org/tutorials/text/word2vec

当我使用函数 tf.random.log_uniform_candidate_sampler 进行负采样时，具有低标记（sg 0,1,2 ...）的负样本将被采样最多。如果“[UNK]”是词汇表中的第一个（或使用填充时为第二个），这意味着它具有标记 0（或使用填充时为 1），那么“[UNK]”将被大量采样为负样本。如果“[UNK]”经常发生，那没有问题，但如果没有怎么办？那么它应该收到更高的令牌，不是吗？

word2vec - 为什么“[UNK]”这个词在 word2vec 词汇表中排在第一位？

0 回答 0

Related

Reference