0

我正在尝试进行文本分类,并在句子级别使用预训练的 Glove 词嵌入。我目前正在使用非常幼稚的方法,即平均单词向量来表示句子。

问题是如果句子中没有出现预训练的单词怎么办,如果出现这种情况怎么办?只是忽略这句话还是给这个句子向量随机分配一些值?我找不到处理这个问题的参考资料,大多数论文只是说他们使用平均预训练词嵌入来生成句子嵌入。

4

1 回答 1

0

如果一个句子没有任何你知道的单词,那么任何分类尝试都将是随机猜测。

这样的无信息句子不可能改善您的分类器,因此最好将它们省略而不是包含完全随机的特征。

(对于具有子词词素的语言,有一些词嵌入技术可以比随机词向量更好地猜测以前未知的词。例如,参见 Facebook 的“FastText”工具。但除非你的文本有大量以未知单词为主,您可以推迟对此类技术的调查,直到验证您的一般方法是否适用于更简单的文本。)

于 2017-06-12T18:50:56.247 回答