c# - 在文档分类中应用 Mallet 作为二元分类器

Question

我已经使用 Mallet 实现了一个文档分类工具，它将文档的每一页分类到某些类别。我也尝试过 Weka，但 Mallet 在这方面比 Weka 更聪明。我的方法如下：

这部分已经以良好的成功率实施。

对于我未训练且与已知类别不同的文本文档应返回为 NO Match，Mallet 正在尝试从训练集中为 Mallet 未知的文档查找匹配项。

例如，我在一个文档中有 4 页。第 1 页属于 A 类，第 3 页属于 B 类。第 2 页和第 4 页不属于任何类。如何通过 Mallet 将第 2 页和第 4 页标记为“不匹配”？

请帮助我实现这一目标。让我知道我是否做错了什么或任何其他可以为我提供所需输出的工具。

score 2 · Accepted Answer

两个快速的想法：

您可以为所需的置信度值提供一些阈值。例如，mallet 以 90% 的置信度说第 1 页属于 A 类，接受它。如果说第 2 页属于 C 类，有 60% 的置信度，这是最好的值，可能会拒绝该建议。您可以通过函数-getClassificationScores（文档：http://mallet.cs.umass.edu/api/cc/mallet/classify/MaxEnt.html#getClassificationScores(cc.mallet.types.Instance , double [])
你可以在 python 中学习 scikit-learn。我听说如果它不知道你的页面属于哪个类，它会告诉NA.

1 回答 1