我构建并训练了一个无监督的深度人工神经网络来检测大型数据集中的高阶特征。
数据包括每日天气测量结果,我的深度网络最后一层的输出是 4 个神经元宽,希望能代表高阶特征。现在我想检测一个非常罕见的事件(例如龙卷风)的概率。10,000 out of 5,000,000
我挑出了导致龙卷风的数据点,但关于数据点的数据很少。
What's the best design for my tornado classifier?
- 创建一个仅由 10,000 个
tornado
数据点组成的训练集,每次期望的输出为 1? - 创建一个由所有 5,000,000 个数据点组成的训练集,当没有龙卷风时输出 0,当有龙卷风时输出 1?但这可能永远无法预测龙卷风。
- 其他解决方案?