对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章以将它们分类为各种主题(开始时主题可能是 40-50)。例如,它将检查数据库技术文章并将它们分类是否文章是 NOSQL 文章/关系数据库文章/图形数据库文章(只是一个例子)。
我有非常基本的 NLP 背景,我们的团队大多有 python 后端脚本经验。我开始研究可用于实现它的各种选项,并遇到了基于 Python 的 NLTK 和 Scikit-Learn,以及基于 JVM 的 Weka 和 Mallet。
我的理解是 NLTK 更适合学习和理解各种 NLP 技术,如主题分类。
有人可以建议我们可以用于实现的最佳开源解决方案吗?如果我错过了任何有助于答案的信息,请告诉我。