我已经使用 Mallet 实现了一个文档分类工具,它将文档的每一页分类到某些类别。我也尝试过 Weka,但 Mallet 在这方面比 Weka 更聪明。我的方法如下:
- 将文档的页面训练到已知类别
- 测试几个样本文档 Mallet 是否识别某个类别的页面。这里 Mallet 与已知类别的测试集中匹配。
- 如果测试成功且令人满意,则使用分类器和槌文件在巨大的文档存储库上运行。
这部分已经以良好的成功率实施。
对于我未训练且与已知类别不同的文本文档应返回为 NO Match,Mallet 正在尝试从训练集中为 Mallet 未知的文档查找匹配项。
例如,我在一个文档中有 4 页。第 1 页属于 A 类,第 3 页属于 B 类。第 2 页和第 4 页不属于任何类。如何通过 Mallet 将第 2 页和第 4 页标记为“不匹配”?
请帮助我实现这一目标。让我知道我是否做错了什么或任何其他可以为我提供所需输出的工具。