machine-learning - 使用概率标记数据进行学习的理论

Question

有没有关于使用模糊/概率标记数据的理论？例如，是否可以对仅估计不同训练数据组为真的概率的训练数据进行分类？

例子：

你想知道一个新的数据点d是真还是假（或者可能是什么概率）？基于与训练数据ac的一些相似性度量。

score 0 · Accepted Answer

听起来像经典的贝叶斯问题，不是吗？

就像给出的鱼是 90% 鲈鱼和 50% 三文鱼的概率一样，没有任何额外的信息？

这将导致任何学习算法对 A 类进行分类以最小化任何样本的错误。

score 0 · Accepted Answer

例如聚类（GMM 或示例）中的部分成员资格，其中每个数据点在每个类中的放置概率上都有一个狄利克雷分布。

或者也许“使用标签噪声学习”中的某些内容可以给你一个答案，大多数学习者在理论上期待干净标记的数据，但是使用噪声标签背后有一些理论： Learning_with_Label_Noise

编辑

不确定的证据或软证据。

对于模型 p(x, y)，我们有 y' 是关于 y 的软证据，然后计算 p(x|y')

p(x|y') = sum_y p(x, y|y') = sum_y p(x|y, y')p(y|y') = sum_y p(x|y)p(y|y' )

其中确凿证据是一种特殊情况，其中 p(y|y') = dirac(yy')