有没有关于使用模糊/概率标记数据的理论?例如,是否可以对仅估计不同训练数据组为真的概率的训练数据进行分类?
例子:
- 训练数据点a1,a2:90% 正确
- 训练数据点b2,b2 : 50% true
- 训练数据点c1,c2:30% 正确
你想知道一个新的数据点d是真还是假(或者可能是什么概率)?基于与训练数据ac的一些相似性度量。
有没有关于使用模糊/概率标记数据的理论?例如,是否可以对仅估计不同训练数据组为真的概率的训练数据进行分类?
例子:
你想知道一个新的数据点d是真还是假(或者可能是什么概率)?基于与训练数据ac的一些相似性度量。
听起来像经典的贝叶斯问题,不是吗?
就像给出的鱼是 90% 鲈鱼和 50% 三文鱼的概率一样,没有任何额外的信息?
这将导致任何学习算法对 A 类进行分类以最小化任何样本的错误。
例如聚类(GMM 或示例)中的部分成员资格,其中每个数据点在每个类中的放置概率上都有一个狄利克雷分布。
或者也许“使用标签噪声学习”中的某些内容可以给你一个答案,大多数学习者在理论上期待干净标记的数据,但是使用噪声标签背后有一些理论: Learning_with_Label_Noise
不确定的证据或软证据。
对于模型 p(x, y),我们有 y' 是关于 y 的软证据,然后计算 p(x|y')
p(x|y') = sum_y p(x, y|y') = sum_y p(x|y, y')p(y|y') = sum_y p(x|y)p(y|y' )
其中确凿证据是一种特殊情况,其中 p(y|y') = dirac(yy')