tensorflow - 张量流连续文本序列到序列。为什么要分批？

Question

我正在构建一个序列到序列的莎士比亚预测器，并查看它似乎以 50 个字符为一组进行批处理的示例代码。我对此有点困惑。如果文本是连续的并且您正在处理 50 个字符的块，那么这肯定意味着您只会根据第 50 个字符之后的下一个预期字符来计算损失，并且模型永远不会针对下一个预期字符进行训练其他 49 个字符。换句话说，如果你有 1000 个字符和 20 组 50 个字符，那么它只会被教导预测 20 个不同的字符。这些批次不应该在每个时期移动一个随机偏移量，以便它学习如何预测其他字符吗？

这肯定不对吧？在我的理解中，我在这里缺少什么？

此外，批次是否总是按顺序处理？当状态被推进以表示先前的序列时，这当然很重要。

谢谢雷

7/24 更新：这是原始代码...

    self.num_batches = int(self.tensor.size / (self.batch_size *
                                               self.seq_length))

    # When the data (tensor) is too small,
    # let's give them a better error message
    if self.num_batches == 0:
        assert False, "Not enough data. Make seq_length and batch_size small."

    self.tensor = self.tensor[:self.num_batches * self.batch_size * self.seq_length]
    xdata = self.tensor
    ydata = np.copy(self.tensor)
    ydata[:-1] = xdata[1:]
    ydata[-1] = xdata[0]
    self.x_batches = np.split(xdata.reshape(self.batch_size, -1),
                              self.num_batches, 1)
    self.y_batches = np.split(ydata.reshape(self.batch_size, -1),
                              self.num_batches, 1)

据我所见，它似乎没有重叠，但我是 Python 的新手，所以可能会遗漏一些东西。

score 1 · Accepted Answer

如果你有1000 chars并且如果你创建20 sets了50 chars，那将成为一个不重叠的窗口，并且正如你所说的那样它将不起作用。相反，您通过移动一个字符并创建(1000-50) sets训练数据来考虑重叠窗口。这是正确的做法。

tensorflow - 张量流连续文本序列到序列。为什么要分批？

1 回答 1

Related

Reference