apache-spark - 用朴素贝叶法消除低置信度的预测

问问题 2014-11-12T10:13:49.677

188 次

2

我一直在尝试 Naive Baye 对 Spark 的 MLlib 的实现。在测试阶段，我希望消除预测置信度低的数据。

我的数据集主要由基于表单的文档组成，例如报告和申请表。它们包含键值对类型文本，因此我假设独立条件比自然语言更好。

关于先验的质量，我没有做任何特别的事情。我正在为每个类训练或多或少相同数量的样本，并将繁重的工作留给 MLlib 来完成。

鉴于这些事实，为每个类别定义置信度阈值是否有意义，在该阈值之上我将始终获得正确的结果？

谢谢

0 回答 0