1

我想知道如何声称我正确地捕捉到了数据中的“噪音”?

更具体地说,以主成分分析为例,我们知道在 PCA 中,在做 SVD 之后,我们可以将小的奇异值归零,并使用低秩逼近重构原始矩阵。

那么我可以声称被忽略的确实是数据中的噪音吗?是否有任何评估指标?

我能想出的唯一方法就是从重建数据中减去原始数据。

然后,尝试在其上拟合高斯,看看适应度是否良好。

是像DSP这样的传统方法吗?

顺便说一句,我认为在典型的机器学习任务中,测量将是后续分类性能,但由于我正在做纯粹的生成模型,因此没有附加标签。

4

3 回答 3

4

在我看来,噪声的定义取决于问题的领域。因此,减少它的策略在每个域上都会有所不同。

例如,在地震地层分类问题或人脸分类问题上的噪声图像等问题中具有噪声信号将与医学诊断问题中由不正确标记数据产生的噪声或由于相似词具有不同含义而产生的噪声大不相同。文档的语言分类问题。

当噪声是由于给定(或一组)数据点造成的,那么解决方案就像忽略这些数据点一样简单(尽管大多数时候识别这些数据点是具有挑战性的部分)

从您的示例中,我猜您更关心将噪声嵌入特征中的情况(例如在地震示例中)。有时人们倾向于使用中值滤波器( http://en.wikipedia.org/wiki/Median_filter )等降噪滤波器对数据进行预处理。相比之下,其他一些人倾向于降低数据的维度以减少噪声,而在这种场景中使用了 PCA。

这两种策略都是有效的,通常人们会同时尝试并交叉验证它们,看看哪一种效果更好。

您所做的是检查高斯噪声的好指标。但是,对于非高斯噪声,您的指标可能会给您带来误报(适应性差,但降噪效果仍然不错)

于 2013-03-15T14:18:42.397 回答
1

就个人而言,如果您想证明降噪的功效,我会使用基于任务的评估。我假设您这样做是出于某种目的,以解决某些问题?如果是这样,请使用原始噪声矩阵和新的干净矩阵来解决任务。如果后者效果更好,则为了您感兴趣的任务,丢弃的是噪音。我认为一些客观的噪音衡量标准很难定义。

于 2013-03-15T11:47:42.307 回答
0

我找到了这个。非常有说服力,需要很长时间才能理解。 https://sci2s.ugr.es/noisydata#Introduction%20to%20Noise%20in%20Data%20Mining

于 2021-06-10T01:12:46.297 回答