2

我一直在尝试 Naive Baye 对 Spark 的 MLlib 的实现。在测试阶段,我希望消除预测置信度低的数据。

我的数据集主要由基于表单的文档组成,例如报告和申请表。它们包含键值对类型文本,因此我假设独立条件比自然语言更好。

关于先验的质量,我没有做任何特别的事情。我正在为每个类训练或多或少相同数量的样本,并将繁重的工作留给 MLlib 来完成。

鉴于这些事实,为每个类别定义置信度阈值是否有意义,在该阈值之上我将始终获得正确的结果?

谢谢

4

0 回答 0