2

我的问题基本上是:在学习问题中,是否有不建议使用神经网络的数据集?此类数据集有哪些流行特征?

我问的原因是:在一些文章中证明神经网络可以学习任何功能。但是所有的数据集都代表一个函数吗?如果他们没有资格这样做;不合格数据集的属性是什么?

在我的研究中,我很难找到一个好的架构和参数组合。我对数据集本身持怀疑态度。因为我看到了以下模式

    
输入 1 输入 2 目标
0.8 0.6 0.3
0.8 0.6 0.3
0.8 0.6 0.0
0.8 0.6 0.1

作为人类,我无法通过查看输入来预测目标,我希望神经网络也不会准确预测。因此,对于这种情况,可能建议采用其他方法。

4

2 回答 2

1

只要你不能说出真正的价值是什么,就没有确定的答案。或者更具体地说,有一个真正的价值。

但是,有两种情况很常见,可能会产生这样的数据。

1.)嘈杂的输出假设你观察到的数据来自一个函数

 f(x,y) = g(x,y) + N(0,0.1)

Whereg(x,y)给出了一个唯一的值,但是在您的函数中添加了正态分布的噪声。如果您有足够的训练日期,您的 NN 将慢慢收敛到正确的值。即使噪声不是正态分布训练也可以适应

2.) 没有唯一的真实价值还有另一种情况是可以想象的。没有唯一的真值。鉴于我上面的训练数据作为人类会学习。0.5以此类推f(0.8,0.6)=0.3。_ 神经网络也能够学习这些功能。

什么是神经网络无法学习。机器学习中有一些假设可能无法学习。例如,如果您的数据不是独立的,那将是一个大问题。因此,如果您的训练数据中的目标独立于输入,那么模式0.3,0.3,0.0,0.1,0.3,0.3,0.0,0.1,....学习将很困难。

一般来说,你需要能够制定你想学的东西。这通常是根据目标函数完成的,否则,您永远无法确定网络学到了什么(参见,没有免费午餐定理

于 2016-01-09T22:17:39.153 回答
1

在算法实现和调优之前,也许首先应该看一下data quality. 有一篇非常好的参考论文(其中之一),我希望它有所帮助

Goodchild、M​​ichael F. 和 Keith C. Clarke。“海量数据集中的数据质量。” 海量数据集手册。斯普林格美国,2002. 643-659。

于 2016-01-10T05:25:51.503 回答