4

据我所知,自动编码器可用于降低特征向量的维数。在文本分类中,特征向量通常是通过字典构建的——字典往往非常大。我没有使用自动编码器的经验,所以我的问题是:

  1. 自动编码器可以用来减少文本分类中的维度吗?(为什么?/为什么不呢?)
  2. 有人已经这样做了吗?如果是这样,来源会很好。
4

1 回答 1

3

现有作品使用自动编码器在句子级别创建模型。基本上在使用 Autoencode 训练模型之后,您可以获得一个句子的向量。由于任何文档都由句子组成,因此您可以获得文档的一组向量,并进行文档分类。根据我对各种向量表示(例如从自动编码生成的向量表示)的经验,这样做可能会给出比用词袋分类更糟糕的答案。

于 2014-06-11T18:44:57.517 回答