25

我试图使用 RNN(特别是 LSTM)进行序列预测。但是,我遇到了可变序列长度的问题。例如,

sent_1 = "I am flying to Dubain"
sent_2 = "I was traveling from US to Dubai"

我正在尝试使用基于此基准的简单 RNN 来预测当前单词之后的下一个单词,以构建 PTB LSTM 模型

但是,num_steps参数(用于展开到先前的隐藏状态)在每个 Tensorflow 的 epoch 中应该保持不变。基本上,批处理句子是不可能的,因为句子的长度不同。

 # inputs = [tf.squeeze(input_, [1])
 #           for input_ in tf.split(1, num_steps, inputs)]
 # outputs, states = rnn.rnn(cell, inputs, initial_state=self._initial_state)

在这里,num_steps在我的情况下,每个句子都需要更改。我已经尝试了几个黑客,但似乎没有任何工作。

4

5 回答 5

24

您可以使用以下描述的分桶和填充的想法:

    序列到序列模型

此外,创建 RNN 网络的 rnn 函数接受参数sequence_length。

例如,您可以创建相同大小的句子桶,用必要数量的零或代表零字的占位符填充它们,然后将它们与 seq_length = len(zero_words) 一起提供。

seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs, initial_state=initial_state, sequence_length=seq_length)

sess = tf.Session()
feed = {
    seq_length: 20,
    #other feeds
}
sess.run(outputs, feed_dict=feed)

看看这个reddit线程:

   具有“可变长度”序列的 TensorFlow 基本 RNN 示例

于 2016-01-08T10:52:13.373 回答
16

dynamic_rnn即使在一批中,您也可以通过将数组传递给sequence_length参数来使用并指定每个序列的长度。示例如下:

def length(sequence):
    used = tf.sign(tf.reduce_max(tf.abs(sequence), reduction_indices=2))
    length = tf.reduce_sum(used, reduction_indices=1)
    length = tf.cast(length, tf.int32)
    return length

from tensorflow.nn.rnn_cell import GRUCell

max_length = 100
frame_size = 64
num_hidden = 200

sequence = tf.placeholder(tf.float32, [None, max_length, frame_size])
output, state = tf.nn.dynamic_rnn(
    GRUCell(num_hidden),
    sequence,
    dtype=tf.float32,
    sequence_length=length(sequence),
)

代码取自一篇关于该主题的完美文章,也请查看。

更新:另一个关于vs你可以找到的好帖子dynamic_rnnrnn

于 2017-01-17T08:32:23.327 回答
5

您可以使用中描述的分桶和填充的想法

   序列到序列模型

创建 RNN 网络的 rnn 函数也接受参数 sequence_length。

例如,您可以创建相同大小的句子桶,用必要数量的零或代表零字的占位符填充它们,然后将它们与 seq_length = len(zero_words) 一起提供。

seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs,initial_state=initial_state,sequence_length=seq_length)

sess = tf.Session()
feed = {
seq_lenght: 20,
#other feeds
       }
sess.run(outputs, feed_dict=feed)

在这里,最重要的是,如果您想利用一个句子获得的状态作为下一个句子的状态,当您提供 sequence_length 时,(假设为 20,填充后的句子为 50)。您想要在第 20 个时间步获得的状态。为此,做

tf.pack(states)

在那次通话之后

for i in range(len(sentences)):
state_mat   = session.run([states],{
            m.input_data: x,m.targets: y,m.initial_state: state,     m.early_stop:early_stop })
state = state_mat[early_stop-1,:,:]
于 2016-01-12T11:11:00.187 回答
4

您可以限制输入序列的最大长度,将较短的序列填充到该长度,记录每个序列的长度并使用tf.nn.dynamic_rnn。它像往常一样处理输入序列,但在序列的最后一个元素(由 表示)之后seq_length,它只是复制单元状态,并为输出输出零张量。

于 2016-10-06T16:58:43.527 回答
1

很抱歉发布一个死问题,但我刚刚提交了一个 PR 以获得更好的解决方案。dynamic_rnn非常灵活,但速度非常慢。如果它是您唯一的选择,它会起作用,但 CuDNN 更快。这个 PR 增加了对可变长度的支持CuDNNLSTM,所以希望你很快就能使用它。

您需要按长度降序对序列进行排序。然后你可以pack_sequence,运行你的 RNN,然后unpack_sequence

https://github.com/tensorflow/tensorflow/pull/22308

于 2018-09-18T22:48:04.587 回答