0

如果词汇表是从频率较高的单词到频率较低的单词排序,则将“[UNK]”放在开头意味着它出现最多。但是如果“[UNK]”不是最常见的词怎么办?我应该根据它的频率把它放在词汇表的另一个地方吗?

我在做本教程时发现了这样的问题-> https://www.tensorflow.org/tutorials/text/word2vec

当我使用函数 tf.random.log_uniform_candidate_sampler 进行负采样时,具有低标记(sg 0,1,2 ...)的负样本将被采样最多。如果“[UNK]”是词汇表中的第一个(或使用填充时为第二个),这意味着它具有标记 0(或使用填充时为 1),那么“[UNK]”将被大量采样为负样本。如果“[UNK]”经常发生,那没有问题,但如果没有怎么办?那么它应该收到更高的令牌,不是吗?

4

0 回答 0