5

给定一个状态向量,我们可以通过连续生成每个输出以贪婪的方式递归解码序列,其中每个预测都以前一个输出为条件。我最近阅读了一篇论文,该论文描述了在解码过程中使用波束搜索,波束大小为 1 (k=1)。如果我们只在每一步都保留最好的输出,这不就和贪心解码一样,并且没有提供波束搜索通常提供的好处吗?

4

1 回答 1

5

终于找到了答案:beam size 为 1 和贪心搜索一样。

来自“具有注意力循环神经网络的抽象句子摘要”:

"k refers to the size of the beam for generation; k = 1 implies greedy generation."
于 2016-09-17T05:58:00.650 回答