Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Gensim python 工具包为文档构建 tf-idf 模型。所以我需要先为所有文档创建一个字典。但是,我发现 Gensim 在创建字典和语料库之前不使用词干提取。我对吗 ?
你是对的。Gensim 没有做任何特别的事情,只是将你给它的东西转换成不同的模型。
以下是相关报价及其来自的链接:
处理文档的方式如此多样且依赖于应用程序和语言,因此我决定不通过任何界面来限制它们。相反,文档由从中提取的特征表示,而不是由其“表面”字符串形式表示:如何获得特征取决于您。
从字符串到向量
我也在为同样的情况而苦苦挣扎。为了克服我首先使用 stammed 文档NLTK,然后使用gensim. 可能它是执行任务的一种更简单、更方便的方法。
NLTK
gensim