我想重现一个循环神经网络,其中每个时间层后面都有一个 dropout 层,这些 dropout 层共享它们的掩码。这种结构在循环神经网络中 Dropout 的理论基础应用中有所描述。
据我对代码的理解,在 MXNet 中实现的循环网络模型在时间层之间没有应用任何 dropout 层;(R API,Python API )等函数的dropout
参数实际上定义了输入的dropout。因此,我需要从头开始重新实现这些功能。lstm
但是,Dropout 层似乎并没有采用将 mask 定义为参数的变量。
是否可以在计算图的不同位置创建多个 dropout 层,但共享它们的掩码?