我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。然而,在他们的词汇中,有太多拼写错误的词或垃圾词(例如,##AA##、adirty 等)。为了避免这个词,我想提取频繁词(例如,前 50000 个词),因为我认为相对高频词具有范式。
所以,我想知道是否有办法在上述两个预训练的词嵌入中找到词频。如果没有,我想知道是否有一些技术可以排除这个词。
我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。然而,在他们的词汇中,有太多拼写错误的词或垃圾词(例如,##AA##、adirty 等)。为了避免这个词,我想提取频繁词(例如,前 50000 个词),因为我认为相对高频词具有范式。
所以,我想知道是否有办法在上述两个预训练的词嵌入中找到词频。如果没有,我想知道是否有一些技术可以排除这个词。