dataset - 要在神经网络模型中用于预测的数据的缺失值

Question

我目前有很多数据将用于训练预测神经网络（美国主要机场的千兆字节天气数据）。我几乎每天都有数据，但有些机场的数据中缺少值。例如，一个机场在 1995 年之前可能不存在，所以我没有在那之前那个特定位置的数据。此外，有些缺少整年（一个可能跨越 1990 年到 2011 年，缺少 2003 年）。

在不误导我的神经网络的情况下，我能做些什么来训练这些缺失值？我想用 0 或 -1 填充空数据，但我觉得这会导致网络预测某些输出的这些值。

score 1 · Accepted Answer

我使用了很多 NN 进行预测，我可以说你可以简单地在数据中留下那些“漏洞”。事实上，NN 能够学习观察到的数据中的关系，所以如果你没有一个特定的时期，那没关系......如果你将空数据设置为一个常数值，你会给你的训练算法误导信息. NN 不需要“连续”数据，事实上，在训练之前对数据集进行混洗是一种很好的做法，以便对不连续的样本进行反向传播阶段......

score 1 · Accepted Answer

我不是专家，但这肯定取决于您拥有的神经网络类型？

神经网络的重点是它们可以处理缺失的信息等等。

不过我同意，用 1 和 0 设置空数据不是一件好事。

也许您可以提供一些有关您的神经网络的信息？

score 0 · Accepted Answer

那么一种名为自动编码器的神经网络适合您的工作。自动编码器可用于重建输入。训练自动编码器以学习底层数据流形/分布。但是，它们主要用于图像和声音等信号重建任务。但是，您可以使用它们来填充缺失的功能。

还有另一种技术被称为“矩阵分解”，它被用于许多推荐系统。人们使用矩阵分解技术来填充具有大量缺失值的巨大矩阵。例如，假设 IMDb 上有 100 万部电影。在她的一生中，几乎没有人看过这些电影的 1/10。但她投票给了一些电影。矩阵是N by M用户N数量M和电影数量。矩阵分解是用于填充缺失值并根据用户之前对其他电影的投票向用户推荐电影的技术之一。

dataset - 要在神经网络模型中用于预测的数据的缺失值

3 回答 3

Related

Reference