0

我正在尝试为我在 scikit learn 中构建的朴素贝叶斯模型构建自己的 pmml 导出器。在阅读 PMML 文档时,似乎对于每个特征向量,如果它是离散的,您可以根据计数数据输出模型,如果它是连续的,则可以输出为高斯/泊松分布。但是我的 scikit 学习模型的系数是根据特征的经验对数概率,即 p(y|x_i)。是否可以根据这些概率而不是计数来指定贝叶斯输入参数?

4

1 回答 1

1

由于朴素贝叶斯模型的 PMML 表示通过“PairCounts”元素实现表示联合概率,因此可以简单地用概率输出(而不是对数概率)替换该比率。由于最终概率是标准化的,因此差异并不重要。如果需求涉及大量概率,大部分为 0,则可以使用模型的“阈值”属性来设置这些概率的默认值。

于 2014-12-08T23:12:19.147 回答