1

我正在解决公司文件的二进制文本分类问题。将长度为 100 的 Doc2Vec 嵌入与 LightGBM 一起使用会产生很好的效果。然而,对于这个项目,为至少一个组件近似一个主题含义将是非常有价值的。理想情况下,这将是一个被 LightGBM 列为高度重要的功能,并通过一些例子进行了轶事解释。

有没有人尝试过这个,或者对于这种复杂程度的高维模型,解释是否应该被排除在外?

4

1 回答 1

0

表示的各个维度Doc2Vec不应被视为独立的、可解释的特征。它们仅在相互配合时才有用,并且与各个坐标轴对齐的确切方向在任何人类可描述的意义上可能都没有很强的意义。

然而,空间的邻域可能与可描述的主题松散地契合,并且某些方向(不是特别与坐标轴平行)可能与语义主题松散地契合。

但为了表征这些,您可能会尝试找到相关文档组或发现的集群的质心点,并比较这些质心之间的相对距离/方向。

于 2018-08-08T00:56:21.177 回答