我有 BOW 向量,我想知道 sklearn 或 gensim 中是否有监督降维算法能够获取高维、监督数据并将其投影到较低维空间中,从而保留这些类之间的差异。
实际上,我正在尝试为分类/回归找到一个合适的指标,我相信使用维度可以帮助我。我知道有无监督的方法,但我想保留标签信息。
我有 BOW 向量,我想知道 sklearn 或 gensim 中是否有监督降维算法能够获取高维、监督数据并将其投影到较低维空间中,从而保留这些类之间的差异。
实际上,我正在尝试为分类/回归找到一个合适的指标,我相信使用维度可以帮助我。我知道有无监督的方法,但我想保留标签信息。
FastText - 来自 Facebook 研究的实现,基本上可以帮助您实现您所要求的。由于您询问的是 gensim,我假设您可能知道 gensim 中的 word2vec。
现在 word2vec 是 Mikolov 在谷歌时提出的。Mikolov 和他在 Facebook ahs 的团队提出了 fastText,它考虑了单词和子单词信息。它还允许对文本进行分类。
您只能以无监督方式或有监督但使用与目标标签不同的标签执行降维。
例如,您可以使用包含 100 个主题的数据集来训练逻辑回归分类器。使用您的训练数据的该分类器的输出(100 个值)可能是您的降维特征集。