Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想使用主题建模,发现 MALLET 适合我。 我使用大约 10 万个文档成功创建了我的第一个演示。现在根据我的要求,我必须处理 1000 万个无法进一步处理的文档。是否可以将新文档添加到现有主题模型或类似创建两个模型并合并为单个模型并通过合并所有模型来获得输出,因为 mallet 无法一次性处理如此大的文档,我正在考虑批量处理模型并通过合并所有文档来获得输出 比如说我会制作 100 批 10 万个文档并在每批上运行 mallet,最后通过合并所有 100 批获得结果
谢谢
我不认为这对 Mallet 是可能的。我不认为一旦创建了模型,就可以逐步将新文档添加到经过训练的模型中并对其进行重新训练。
我会等待有人支持或反驳我的回答。