我想通过在五个类别标签上对 4000 条推文数据进行分类来比较 ELMo 和 word2vec 作为词嵌入的性能,但结果表明 ELMo 的性能比 word2vec 差。
我将ELMoformanylangs用于 ELMo,并为 word2vec 预训练了 100 万条推文
说明这2个模型都过拟合了,但是为什么ELMo会比word2vec差呢?
我想通过在五个类别标签上对 4000 条推文数据进行分类来比较 ELMo 和 word2vec 作为词嵌入的性能,但结果表明 ELMo 的性能比 word2vec 差。
我将ELMoformanylangs用于 ELMo,并为 word2vec 预训练了 100 万条推文
说明这2个模型都过拟合了,但是为什么ELMo会比word2vec差呢?
从elmoformanylangs
您链接的项目来看,您的通用 ELMo 模型似乎是在“从共享任务发布的原始文本中随机采样的一组 2000 万字数据(wikidump + common crawl)”上训练的。
鉴于许多推文大于 20 个单词,您的 100 万条推文训练集word2vec
可能比用于 ELMo 模型的训练数据更大。而且,来自实际的推文,它也可能比通用的 wikidump/common-crawl 文本更好地反映推文中使用的单词/词义。
鉴于此,我不确定您为什么期望 ELMo 方法一定会更好。
而且,正如您所指出的,您的分类器在更多的训练中表现更差这一事实高度表明极端过度拟合。在尝试进一步推理不同方法的相对优点之前,您可能需要解决这个问题。(当两个分类器都被大量损坏时,究竟为什么一个分类器的损坏度比其他分类器的损坏度要好一点应该是一个相当有争议的问题。在它们都尽可能地固定后,剩下的差异可能会很有趣选择,或深入了解。)