我正在使用 BeautifulSoup 构建一个文本语料库,该语料库与一些来自 HTML 的元数据一起收集。如果我可以从 Python 中调用 Mallet,并让它从 Python 字符串而不是目录中的文本文件中建模主题,那将非常有帮助。这样我就可以将 Mallet 定位的 n 个关键字放入每个文件中。
当我运行时,我收到一条消息说 Mallet 已被识别:
from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")
但是我在接下来的步骤中没有任何运气,甚至不确定 Mallet 是否接受除了保存的文件之外的任何内容。
我无法找到任何我能真正理解的文档。有人看过可消化的文档吗?(NLTK 书没有进入 Mallet)。我也很乐意学习 Python 中的任何其他主题建模方法,我可以在没有真正深入的 Python 知识的情况下操作这些方法。
抱歉,这是我的第一次牛仔竞技表演。