word2vec - 如何使用 word2vec 训练 p(category|title) 模型

Question

使用word2vec，目标是最大化语料概率p(word|context)，上下文以词的形式出现。

假设给定一个语料库 Titles 和它们的类别（如运动、食物...），如何使用 word2vec 训练一个模型来预测 p(category|title)。

score 0 · Accepted Answer

您可以尝试通过将标题中的单词加在一起来获得一个“描述”整个句子的向量，从而实现自己的简单组合。一旦你有了那个向量，你就可以在它上面训练任何分类器（SVM、逻辑回归、k-最近邻等）。

这种方法可能很简单，取决于这些标题的长度。word2vec 嵌入已被证明在短短语的简单向量加法下表现出一些组合性（在 word2vec 论文中，Mikolov 等人显示 vec("Germany") + vec("capital") 非常接近 vec("Berlin")）。所以也许这对你来说已经足够了。

或者，如果标题更像句子，您可以考虑使用 Quoc Le 和 Tomas Mikolov 论文中 word2vec 的句子级扩展。Gensim 有一个非常简单易用的实现，称为 doc2vec。

http://rare-technologies.com/doc2vec-tutorial/

就像更简单的向量加法一样，doc2vec 将生成标题的固定长度表示，然后您可以将其输入标准 ML 库进行分类。

word2vec - 如何使用 word2vec 训练 p(category|title) 模型

1 回答 1

Related

Reference