我想用 scikit-learn 尝试一些关于潜在语义分析 (LSA) 的变体。除了纯频率计数CountVectorizer()
和 的加权结果外TfidfTransformer()
,我还想通过熵(和对数熵)来测试加权(在原始论文中使用并报告表现非常好)。
关于如何进行的任何建议?我知道 Gensim 有一个实现(LogEntropyModel()
),但更愿意坚持使用 scikit-learn。
我想用 scikit-learn 尝试一些关于潜在语义分析 (LSA) 的变体。除了纯频率计数CountVectorizer()
和 的加权结果外TfidfTransformer()
,我还想通过熵(和对数熵)来测试加权(在原始论文中使用并报告表现非常好)。
关于如何进行的任何建议?我知道 Gensim 有一个实现(LogEntropyModel()
),但更愿意坚持使用 scikit-learn。