0

对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章以将它们分类为各种主题(开始时主题可能是 40-50)。例如,它将检查数据库技术文章并将它们分类是否文章是 NOSQL 文章/关系数据库文章/图形数据库文章(只是一个例子)。

我有非常基本的 NLP 背景,我们的团队大多有 python 后端脚本经验。我开始研究可用于实现它的各种选项,并遇到了基于 Python 的 NLTK 和 Scikit-Learn,以及基于 JVM 的 Weka 和 Mallet。
我的理解是 NLTK 更适合学习和理解各种 NLP 技术,如主题分类。

有人可以建议我们可以用于实现的最佳开源解决方案吗?如果我错过了任何有助于答案的信息,请告诉我。

4

1 回答 1

0

构建主题分类模型可以通过两种方式完成。如果您有一个针对文档有标签的训练集,您总是可以使用 scikit learn 构建一个分类器。

但是如果你没有任何训练数据,你可以建立一个叫做主题模型的东西。它基本上将主题作为一组单词提供给您。

您可以使用 Gensim 包来实现这一点。非常清晰,快速且易于实施(看这里

于 2017-09-18T13:19:54.097 回答