问题标签 [seq2seq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
4801 浏览

python - 在神经机器翻译中绑定权重

我想绑定层的权重embeddingnext_word解码器的预测层。嵌入维度设置为 300,解码器的隐藏大小设置为 600。NMT 中目标语言的词汇量为 50000,因此嵌入权重维度为50000 x 300,预测下一个单词的线性层的权重为50000 x 600

那么,我该如何绑定它们呢?在这种情况下,实现重量捆绑的最佳方法是什么?

0 投票
1 回答
3965 浏览

python - tensorflow代码TypeError:*:'int'和'Flag'不支持的操作数类型

我已经给出了模式,但它显示错误,在 tensorflow1.6 中运行它 BATCH_QUEUE_MAX = 100

这段代码突然不能运行了。因为tensorflow变成了1.6版本?

在此处输入图像描述

0 投票
1 回答
417 浏览

python - 使用 tf.contrib.legacy_seq2seq.embedding_rnn_seq2seq 和 tensorflow 1.5 case 'TypeError: can't pickle _thread.lock objects'

使用 tf.contrib.legacy_seq2seq.embedding_rnn_seq2seq with tensorflow 1.5 case 'TypeError: can't pickle _thread.lock objects',这个问题和https://github.com/suriyadeepan/practical_seq2seq/issues/31一样 我用的方式有人发帖:在 embedding_rnn_seq2seq 函数中更改 tf 的代码

这是解决此问题的正确方法吗?或者有没有其他方法可以解决这个问题。tf的API搞得我乱七八糟,改得这么频繁,

杀我!!

0 投票
0 回答
193 浏览

python-3.x - 由于占位符形状限制,图形构建在 tf.scatter_nd 失败

使用 scatter_nd 将注意力分布投射到另一个分布上,本质上是创建一个引用词汇表的分布。

当尝试使用具有很大程度上未定义尺寸的占位符运行此程序时,我遇到了以下错误:

这在 seq2seq 的上下文中,因此模型占位符的形状需要部分未定义。此外,我的数据批次大小不一致,这也需要可变批次大小。

0 投票
1 回答
321 浏览

python - 在 Tf.Estimator API 中重用嵌入变量进行推理

在使用 seq2seq 架构的 NMT 中,在推理过程中,我们需要在训练阶段训练的嵌入变量作为 GreedyEmbeddingHelper 或 BeamSearchDecoder 的输入。

问题是,在使用 Estimator API 进行训练和推断的上下文中,我们如何提取这个经过训练的嵌入变量以用于预测?

0 投票
1 回答
341 浏览

python-3.x - Tensorflow:使用 Attention 和 BeamSearch 的 seq2seq 模型中 .clone() 的问题

我正在尝试实现一个 seq2seq 模型,在 Tensorflow (1.6.0) 中使用 bidirectional_dynamic_decode、Attention 和 BeamSearchDecoder。(我试图只复制相关代码,以保持简单)

但是,当我尝试将编码器的最后状态克隆到上图中的“beam_initial_state”变量时,出现以下错误:

有人给点建议吗?提前非常感谢。

0 投票
2 回答
558 浏览

python - Tensorflow:BeamSearchDecoder 的问题 - dynamic_decode

使用注意力和波束搜索实现具有双向 multilstm 层的 seq2seq 模型。(仅发布必要的代码以保持简单)

编码器

解码器

在这一行:

我收到以下错误:

有没有人有这方面的经验,或者遇到过同样的问题?我将非常感谢您的建议。

张量流:1.6.0 batch_size = 64 rnn_size = 256

0 投票
0 回答
462 浏览

python - AttributeError:“LSTMStateTuple”对象在 tf.contrib.seq2seq.dynamic_decode(decoder) 中没有属性“get_shape”

我不知道为什么我会收到这个错误。我看到了一些更改state_is_tuple=False的帖子,但它给了我一些其他错误。我认为错误在于我定义 lstm 单元格的方式,但不确定我应该改变什么?我关注了这个具有相似代码结构的链接。

这是我的代码:

现在,我在tf.contrib.seq2seq.dynamic_decode(decoder)中收到错误,如下所示:

0 投票
1 回答
2754 浏览

python - keras - seq2seq 模型预测所有测试输入的相同输出

我正在尝试在 Keras 中使用 LSTM 构建 seq2seq 模型。目前正在研究英语到法语对数据集 - 10k 对(原始数据集有 147k 对)。在尝试预测给定输入序列模型的输出时完成训练后,无论输入序列如何,都预测相同的输出。还为编码器和解码器使用单独的嵌入层。我观察到的是,预测的词只不过是数据集中最常见的词,它们按频率的降序显示。例如:“我认识你”、“我们可以走吗?”、“摆脱它”——对于所有这些输入序列,输出是——“je suis en train”(所有三个输出相同)。

任何人都可以帮助我,这可能是模型表现得这样的原因。我错过了一些基本的东西吗?

我尝试使用batchsize = 32,epoch = 50,maxinp = 8,maxout = 8,embeddingsize = 100。

更新::我在 147k 数据集上运行了 5 个 epoch,每个输入的结果都不同。谢谢您的帮助。

但是,现在我正在使用另一个数据集运行相同的模型,其中输入和输出序列在清理(删除停用词和其他内容)后分别包含平均单词数为 170 和 100。这个数据集有大约 30k 条记录,如果我运行 50 个 epoch,每个测试句子的结果都是相同的。那么我的下一个选择是什么让我尝试。我期待不同的输入至少有不同的输出(即使它是错误的),但相同的输出会增加更多的挫败感,无论模型是否学习不正确。有答案吗??

0 投票
1 回答
512 浏览

tensorflow - tf.contrib.seq2seq.TrainingHelper 中的 sequence_length 字段是什么?

谁能解释序列长度字段的用途tf.contrib.seq2seq.TrainingHelper