使用word2vec,目标是最大化语料概率p(word|context),上下文以词的形式出现。
假设给定一个语料库 Titles 和它们的类别(如运动、食物...),如何使用 word2vec 训练一个模型来预测 p(category|title)。
使用word2vec,目标是最大化语料概率p(word|context),上下文以词的形式出现。
假设给定一个语料库 Titles 和它们的类别(如运动、食物...),如何使用 word2vec 训练一个模型来预测 p(category|title)。
您可以尝试通过将标题中的单词加在一起来获得一个“描述”整个句子的向量,从而实现自己的简单组合。一旦你有了那个向量,你就可以在它上面训练任何分类器(SVM、逻辑回归、k-最近邻等)。
这种方法可能很简单,取决于这些标题的长度。word2vec 嵌入已被证明在短短语的简单向量加法下表现出一些组合性(在 word2vec 论文中,Mikolov 等人显示 vec("Germany") + vec("capital") 非常接近 vec("Berlin"))。所以也许这对你来说已经足够了。
或者,如果标题更像句子,您可以考虑使用 Quoc Le 和 Tomas Mikolov 论文中 word2vec 的句子级扩展。Gensim 有一个非常简单易用的实现,称为 doc2vec。
http://rare-technologies.com/doc2vec-tutorial/
就像更简单的向量加法一样,doc2vec 将生成标题的固定长度表示,然后您可以将其输入标准 ML 库进行分类。