假设我有一个由 (x, y) 样本组成的训练集。
要应用生成算法,比如说高斯判别式,我必须假设
p(x|y) ~ Normal(mu, sigma)
对于每一个可能的 sigma
或者我只需要知道是否x ~ Normal(mu, sigma)
给了 y?
我如何评估 p(x|y) 是否足够好(达到阈值)遵循多元正态分布以使用生成算法?
假设我有一个由 (x, y) 样本组成的训练集。
要应用生成算法,比如说高斯判别式,我必须假设
p(x|y) ~ Normal(mu, sigma)
对于每一个可能的 sigma
或者我只需要知道是否x ~ Normal(mu, sigma)
给了 y?
我如何评估 p(x|y) 是否足够好(达到阈值)遵循多元正态分布以使用生成算法?
这是很多问题。
要应用生成算法,比如说高斯判别式,我必须假设
p(x|y) ~ Normal(mu, sigma) 对于每个可能的 sigma
不,您必须假设对于某些 mu,sigma 对是正确的。在实践中,您不会知道 mu 和 sigma 是什么,因此您需要估计它(frequentist, Max Likelihood/Max A Postiori 估计),或者甚至更好地将您对参数估计的不确定性纳入预测(贝叶斯方法)。
如何评估 p(x|y) 是否遵循多元正态分布?
经典地,使用拟合优度测试。但是,如果 x 的维数超过少数,这将不起作用,因为标准测试涉及 bin 中的项目数量,并且您在高维中需要的 bin 数量是天文数字,因此您的预期计数非常低。
一个更好的主意是这样说:我有哪些选择来建模 x 的(条件)分布?您可以使用模型比较技术在这些选项之间进行比较。阅读模型检查和比较。
最后,你的最后一点:
对我来说足够好(达到阈值)可以使用生成算法吗?
许多生成方法的悖论,包括 Fisher 的线性判别分析,以及朴素贝叶斯分类器,是即使模型对数据很差,分类器也能很好地工作。没有特别充分的理由说明为什么会出现这种情况,但许多人观察到它在经验上是正确的。与假设分布是否很好地解释数据相比,它是否有效可以更容易地检查:只需将您的数据分成训练和测试并找出答案!