问题标签 [tensor2tensor]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
54 浏览

tensorflow - 长句子不适合深度学习模型吗?

有兴趣知道长句子是否适合 tensor2tensor 模型训练。为什么或为什么不呢?

0 投票
0 回答
44 浏览

tensorflow - 如何在 tensor2tensor 中准备 `bias` 向量?

我在理解如何bias工作时遇到问题tensor2tensor,特别是在multihead_attentionor中dot_product_attention。我想将它用作我的问题的库。

假设我有一个T带有维度的输入张量,(batch, max_input_length, hidden_unit)用于一批句子S。而且我还有一个张量,sequence_length它的维度是(batch)提到每个句子的长度S。现在我该如何bias为此准备向量input

我想计算这意味着当, ,相同时的bias向量。self_attentionqkv

另一件事,biasifq不同和k,v相同会发生什么?这是一种cross_attention。我认为在这种情况下,我们必须计算 的偏置向量k。但我不确定。

0 投票
0 回答
108 浏览

tensorflow - 将 tf.matmul 与两个非常量输入一起使用的解决方法

我们目前正在尝试将 Transformer 模型转换为 tensorflow-lite 图,但似乎问题在于自注意力机制。

我们无法处理图表。查看 tf-lite 代码,我们将其缩小到tf.matmullite 版本。

文档状态:

tf.matmul-只要第二个参数是常数并且不使用转置

然而,self-attention 就是这种情况:

在此处输入图像描述

(来源:注意力就是你所需要的

这种情况是否有已知的解决方法?

0 投票
0 回答
665 浏览

python - 使用自己的数据使用 Tensor2Tensor 训练 Transformer

我正在尝试使用 Tensor2Tensor 训练 Transformer 网络。我正在调整Cloud Poetry示例以适应我自己的任务,kt_problem我将浮点序列映射到浮点序列,而不是句子到句子。

我已经根据分散的规范对generate_data()generate_samples()函数进行了调整,以便将自己的数据与 tensor2tensor 一起使用(例如数据生成README类的第174Problem行等)。它们如下:

在我的班级中定义KTProblem

进行此更改后,我可以成功运行

它会生成一堆训练和开发文件。但是当我尝试用这段代码训练一个变压器时,

它引发以下错误:

正如您在 中看到的generate_samples(),生成的数据是np.float64,所以我确定我的输入不应该是int32。堆栈跟踪(贴在下面)非常长,我一直在浏览列出的每一行并检查输入的类型,以查看该int32输入进入图片的位置,但我找不到它。我想知道(1)为什么,如果我的输入是浮点数,它们为什么/如何/在哪里变成浮点数,但主要是(2)一般来说,如何调试这样的代码?到目前为止,我的方法一直是将打印语句放在堆栈跟踪中的每一行之前,但这似乎是一种天真的调试方式。使用VScode会更好,或者当一个库时我需要在这里学习什么课程tensor2tensor,在这种情况下,它的行为不像我认为的那样,但我不想深入了解堆栈跟踪中的每个函数都在做什么?

堆栈跟踪:

0 投票
1 回答
44 浏览

tensor2tensor - 如何在tensor2tensor中使用F1分数

我想在我的多类分类问题上添加 F1 分数。我没有在内置指标列表中找到 F1。F1 是在 tensor2tensor 中的某个地方,还是我必须覆盖 eval_metrics() 并使用我的代码或从 TensorFlow 获取它?

0 投票
1 回答
308 浏览

python - 无法从检查点恢复:双向/backward_lstm/bias

我正在尝试在 tensor2tensor 中创建一个简单的基于 LSTM 的 RNN。

到目前为止,培训似乎有效,但我无法恢复模型。尝试这样做会NotFoundError从 LSTM 中抛出一个指向偏差节点的信息:

我不知道为什么会这样。

这实际上应该是另一个问题的解决方法,我可以使用来自 tensor2tensor ( https://github.com/tensorflow/tensor2tensor/issues/1616 ) 的 LSTM 解决类似的问题。

环境

模型身体

完全错误

任何问题可能是什么以及如何解决这个问题?

0 投票
1 回答
115 浏览

python - 如何从多个模型中获取张量并将它们平均?

我正在尝试对具有相同结构但使用不同数据集进行训练的两个模型的张量进行平均。模型存储在 ckpt 文件中。

我试图从 tensor2tensor 查看avg_checkpoints 函数,但不知道如何使用它。

我该如何解决这个问题?

0 投票
0 回答
162 浏览

tensorflow - 使用估算器得到 InvalidArgumentError 无法分配设备进行操作和 allow_soft_placement: true 不起作用

我得到了输出

InvalidArgumentError:无法为操作转换器分配设备/body/parallel_0/body/encoder/layer_0/self_attention/multihead_attention/dot_product_attention/attention:无法满足显式设备规范“/device:GPU:0”,因为没有支持 GPU 设备的内核可用的。托管调试信息:托管组具有以下类型和支持的设备:根成员(assigned_device_name_index_=-1 requested_device_name_='/device:GPU:0'assigned_device_name_=''resource_device_name_=''supported_device_types_=[CPU] possible_devices_=[] ImageSummary:中央处理器

托管成员、用户请求的设备和框架分配的设备(如果有):
transformer/body/parallel_0/body/encoder/layer_0/self_attention/multihead_attention/dot_product_attention/attention (ImageSummary) /device:GPU:0

Op: ImageSummary 节点属性: max_images=1, T=DT_FLOAT, bad_color=Tensor 注册内核: device='CPU'

当我打印 run_conf.session_config 时,我得到了 allow_soft_placement:true。很多人说它可以解决 InvalidArgumentError 的问题,但似乎对我不起作用。

0 投票
1 回答
78 浏览

tensor2tensor - 如何使德语到英语的翻译工作?

我在 Colab 笔记本“Welcome to the Tensor2Tensor Colab”中尝试了英语到德语的翻译,效果很好。但是我必须错过代码中的某些内容才能使其适用于德语到英语。

根据以下页面https://github.com/tensorflow/tensor2tensor,我添加了“_rev”以“反转”翻译。与原始笔记本相比的两个更改使用 '# <-------------' 标记:

输出如下:

  • 输入:Sie ist zurückgetreten。
  • 输出:Sie sind zurückgetreten。

    翻译似乎仍然是从英语到德语,而不是反之亦然。

    我错过了什么?

  • 0 投票
    1 回答
    98 浏览

    python - 问题()没有属性“贡献”

    我正在尝试查看可用的问题(),但它给出了错误。如果我遗漏了什么,你能告诉我吗

    我在窗户上工作