0

我正在尝试使用 tensorflow复制名为“Attention is al you need”( https://arxiv.org/pdf/1706.03762.pdf )的论文的结果。大部分代码都在这里完成:https : //www.tensorflow.org/text/tutorials/transformer 但有一些小细节没有正确实现。其中之一是批处理操作。对于这种模型,批次是由令牌组成的数组。在论文中指出,批次由 25k 个令牌组成,无论批次大小。怎么做到呢?

作为一个例子,让我们以这个列表列表 [[1, 2], [1], [1, 2, 3], [1], [1], [1]] 考虑每个批次 3 个令牌的令牌目标大小正确的解决方案是: [[[1, 2], [1]], [[1, 2, 3]], [[1], [1], [1]]]

4

0 回答 0