2

我正在使用 Gensim python 工具包为文档构建 tf-idf 模型。所以我需要先为所有文档创建一个字典。但是,我发现 Gensim 在创建字典和语料库之前不使用词干提取。我对吗 ?

4

2 回答 2

3

你是对的。Gensim 没有做任何特别的事情,只是将你给它的东西转换成不同的模型。

以下是相关报价及其来自的链接:

处理文档的方式如此多样且依赖于应用程序和语言,因此我决定不通过任何界面来限制它们。相反,文档由从中提取的特征表示,而不是由其“表面”字符串形式表示:如何获得特征取决于您。

从字符串到向量

于 2013-02-01T00:35:31.173 回答
0

我也在为同样的情况而苦苦挣扎。为了克服我首先使用 stammed 文档NLTK,然后使用gensim. 可能它是执行任务的一种更简单、更方便的方法。

于 2016-02-25T05:16:18.710 回答