python - 构建文章分类器 - NLTK/ Scikit-learn/ 其他 NLP 实现

Question

对于我当前的项目，我必须构建一个主题建模或分类实用程序，它将处理数千篇文章以将它们分类为各种主题（开始时主题可能是 40-50）。例如，它将检查数据库技术文章并将它们分类是否文章是 NOSQL 文章/关系数据库文章/图形数据库文章（只是一个例子）。

我有非常基本的 NLP 背景，我们的团队大多有 python 后端脚本经验。我开始研究可用于实现它的各种选项，并遇到了基于 Python 的 NLTK 和 Scikit-Learn，以及基于 JVM 的 Weka 和 Mallet。
我的理解是 NLTK 更适合学习和理解各种 NLP 技术，如主题分类。

有人可以建议我们可以用于实现的最佳开源解决方案吗？如果我错过了任何有助于答案的信息，请告诉我。

score 0 · Accepted Answer

构建主题分类模型可以通过两种方式完成。如果您有一个针对文档有标签的训练集，您总是可以使用 scikit learn 构建一个分类器。

但是如果你没有任何训练数据，你可以建立一个叫做主题模型的东西。它基本上将主题作为一组单词提供给您。

您可以使用 Gensim 包来实现这一点。非常清晰，快速且易于实施（看这里）

python - 构建文章分类器 - NLTK/ Scikit-learn/ 其他 NLP 实现

1 回答 1

Related

Reference