当涉及到正常的人工神经网络或任何标准机器学习技术时,我了解训练、测试和验证集应该是什么(概念上和经验法则比率)。但是,对于双向 LSTM (BLSTM) 网络,如何拆分数据让我感到困惑。
我正在尝试改进对由监测的健康值组成的个体受试者数据的预测。在最简单的情况下,对于每个受试者,都有一个长时间的值序列(>20k 值),并且该时间序列的连续部分根据受试者当前的健康状况从一组类别中标记出来。对于 BLSTM,网络同时对所有向前和向后的数据进行训练。那么问题是,如何为一个主题拆分时间序列?
- 我不能只取最后 2,000 个值(例如),因为它们可能都属于一个类别。
- 而且我不能随机分割时间序列,因为这样学习和测试阶段都将由不连贯的块组成。
最后,每个主题(据我所知)都有略微不同(但相似)的特征。那么,也许,因为我有成千上万的科目,我是否会在一些科目上进行训练、在一些科目上进行测试并在其他科目上进行验证?但是,由于存在学科间差异,如果我只考虑一个学科开始,我将如何设置测试?