给定一个状态向量,我们可以通过连续生成每个输出以贪婪的方式递归解码序列,其中每个预测都以前一个输出为条件。我最近阅读了一篇论文,该论文描述了在解码过程中使用波束搜索,波束大小为 1 (k=1)。如果我们只在每一步都保留最好的输出,这不就和贪心解码一样,并且没有提供波束搜索通常提供的好处吗?
问问题
1736 次
给定一个状态向量,我们可以通过连续生成每个输出以贪婪的方式递归解码序列,其中每个预测都以前一个输出为条件。我最近阅读了一篇论文,该论文描述了在解码过程中使用波束搜索,波束大小为 1 (k=1)。如果我们只在每一步都保留最好的输出,这不就和贪心解码一样,并且没有提供波束搜索通常提供的好处吗?