如果在错误的意义上使用这些术语,请原谅我。我仍在努力解决许多火花和分布式相关的事情。
这是我的用例,我无法全面了解实现。
我有以镶木地板格式保存的 40 列和 100 个时间步长的时间序列数据。
我了解到,要对大数据进行分布式训练,我们可以使用 petastorm 进行数据注入,使用 Horovod 进行训练。但我不清楚数据需要如何分区(每个 ID 一个分区?行组是什么?)以及如何将数据转换为 LSTM 期望的序列?
朝这个方向的任何指示都会有很大帮助。谢谢!
如果在错误的意义上使用这些术语,请原谅我。我仍在努力解决许多火花和分布式相关的事情。
这是我的用例,我无法全面了解实现。
我有以镶木地板格式保存的 40 列和 100 个时间步长的时间序列数据。
我了解到,要对大数据进行分布式训练,我们可以使用 petastorm 进行数据注入,使用 Horovod 进行训练。但我不清楚数据需要如何分区(每个 ID 一个分区?行组是什么?)以及如何将数据转换为 LSTM 期望的序列?
朝这个方向的任何指示都会有很大帮助。谢谢!