0

有没有关于使用模糊/概率标记数据的理论?例如,是否可以对仅估计不同训练数据组为真的概率的训练数据进行分类?

例子:

  • 训练数据点a1,a2:90% 正确
  • 训练数据点b2,b2 : 50% true
  • 训练数据点c1,c2:30% 正确

你想知道一个新的数据点d是真还是假(或者可能是什么概率)?基于与训练数据ac的一些相似性度量。

4

2 回答 2

0

听起来像经典的贝叶斯问题,不是吗?

就像给出的鱼是 90% 鲈鱼和 50% 三文鱼的概率一样,没有任何额外的信息?

这将导致任何学习算法对 A 类进行分类以最小化任何样本的错误。

于 2012-07-30T12:41:00.477 回答
0

例如聚类(GMM 或示例)中的部分成员资格,其中每个数据点在每个类中的放置概率上都有一个狄利克雷分布。

或者也许“使用标签噪声学习”中的某些内容可以给你一个答案,大多数学习者在理论上期待干净标记的数据,但是使用噪声标签背后有一些理论: Learning_with_Label_Noise

编辑

不确定的证据或软证据。

对于模型 p(x, y),我们有 y' 是关于 y 的软证据,然后计算 p(x|y')

p(x|y') = sum_y p(x, y|y') = sum_y p(x|y, y')p(y|y') = sum_y p(x|y)p(y|y' )

其中确凿证据是一种特殊情况,其中 p(y|y') = dirac(yy')

于 2013-12-29T23:48:48.517 回答