5

我在 tensorflow 上使用 tflearn 包装器来构建模型,并希望将元数据(标签)添加到生成的嵌入可视化中。有没有办法在运行后将 metadata.tsv 文件链接到保存的检查点?

我在检查点摘要的 logdir 中创建了一个projector_config.pbtxt 文件,metadata.tsv 位于同一文件夹中。配置如下所示:

embeddings {
  tensor_name: "Embedding/W"
  metadata_path: "C:/tmp/tflearn_logs/shallow_lstm/"
}

并使用文档中的代码创建 - https://www.tensorflow.org/how_tos/embedding_viz/

我已经注释掉了 tf.Session 部分,希望无需直接在 Session 对象中创建元数据链接,但我不确定这是否可能。

from tensorflow.contrib.tensorboard.plugins import projector
#with tf.Session() as sess:
config = projector.ProjectorConfig()
# One can add multiple embeddings.
embedding = config.embeddings.add()
embedding.tensor_name = 'Embedding/W'
# Link this tensor to its metadata file (e.g. labels).
embedding.metadata_path = 'C:/tmp/tflearn_logs/shallow_lstm/'
# Saves a config file that TensorBoard will read during startup.
projector.visualize_embeddings(tf.summary.FileWriter('/tmp/tflearn_logs/shallow_lstm/'), config)

下面是当前嵌入可视化的快照。注意空的元数据。有没有办法直接将所需的元文件附加到这个嵌入?

嵌入可视化

4

3 回答 3

2

我遇到了同样的问题,现在已经解决了:)

本质上,您需要做的只是以下 3 个步骤:

  1. 保存模型检查点,假设检查点的目录是ckp_dir
  2. projector_config.pbtxtmetadata.tsv放入ckp_dir
  3. 运行tensorboard --logdir=ckp_dir并单击嵌入选项卡

projection_config.pbtxt的内容是:

    embeddings {
      tensor_name: "embedding_name"
      metadata_path: "metatdata.tsv"
    }

这是将嵌入链接到 metadata.tsv 的关键。在 tf.Session() 中,我们经常得到嵌入的值,例如sess.run('embedding_name:0'). 但是在projector_config.pbtxt中,我们只需输入tensor_name: "embedding_name".

一般我们可以在projector_config.pbtxt中指定checkpoint path和metadata_path,这样我们就可以把checkpointprojector_config.pbtxtmetadata.tsv放在不同的目录下。但我认为这太复杂了。我刚刚解决了上面的问题。

此处显示的结果

于 2017-07-04T18:53:13.553 回答
1

试试这个projector_config.pbtxt

embeddings {
  tensor_name: "Embedding/W"
  metadata_path: "$LOGDIR/metadata.tsv"
}

确保您的路径与您在终端$LOGDIR上调用的路径相同;tensorboard --logdir=$LOGDIR也就是说,它应该与您当前的目录相关(因此它可能不应该包含C:/..)。还将文件名包含在metadata_path.

让我知道这是否也适合您。


我在word2vec 教程中尝试显示单词而不是索引时偶然发现了同样的问题。为此,您projector_config.pbtxt应该如下所示:

embeddings {
  tensor_name: "w_in"
  metadata_path: "$LOGDIR/vocab.txt"
}

您可能还想修改save_vocab上面链接的代码中的函数,因为它会将 unicode 转换为十六进制。

于 2017-03-21T07:40:00.160 回答
-1

我有同样的问题。[编辑:]我可以让它工作的方法是创建一个子目录并将所有检查点文件放在那里,使用元数据文件的完整路径。“诀窍”是,如果你给 tensorboard --logdir 那个特定的目录,它会以某种方式解析元数据并在图中显示单词,而不仅仅是索引。不利的一面是,当您仅将基本日志目录用作 --logdir 时,将不再找到嵌入,因此您始终必须启动一个单独的 tensorboard 实例来查看嵌入。

这真的很烦人,我无法想象这是让它工作的唯一方法,但我花了几个小时才最终工作......

于 2017-01-31T17:39:42.603 回答