0

我开始研究我的 ML 课程项目,该项目是对科学文本进行分类并将其标记为主题是否为“A”。我遇到的问题是他们为我提供了有限的数据集。通常,科学文本会使用复杂且不规则的词,这些词在谷歌新闻或 Twitter 等预训练 word2vec 模型中通常不存在,而这些词在文本含义方面占很大比重。所以我想知道,我能做些什么来使用这些预训练模型并预测新词的含义?

4

1 回答 1

1

所以,不要使用预训练模型。他们不仅会丢失域词,而且即使是共享的词,“新闻文章”或“推特”中最常用的词的含义也可能与您的域不匹配。

使用感兴趣的域作为训练数据来训练自己的词向量或其他文档向量并不难。

原始“段落向量”论文的后续论文“使用段落向量嵌入文档”,专门以主题敏感的方式评估段落向量(在 PV-DBOW 变体中)。对于具有相同编辑指定“类别”的 Wikipedia 文章对,它检查 PV-DBOW 是否将这对放置得比一些随机选择的第三篇文章更接近。它对 886,000 篇 Arxiv 论文进行了类似的检查。

即使您有一个小数据集,您也可以使用类似的技术。即使练习提供了一个小数据集,也许其他具有相似词汇表的公共数据集也可以用来增厚你的模型。

(上述论文中使用的PV-DBOW模式,在doc-vector训练中加入word-training,类似于Doc2VecPython gensim库中使用options的类dm=0, dbow_words=1。)

于 2017-07-11T22:15:28.657 回答