问题标签 [tensorflow-gpu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
287 浏览

python - 版本控制的Tensorflow textsum错误

我正在尝试将训练文本文件转换为 bin 文件以训练 tensorflow 的 textsum。但是我遇到了以下错误:

请帮助我。我正在使用 tensorflow 1.2.0 和 python 2.7.2。

0 投票
1 回答
490 浏览

tensorflow - Tensorflow:使用输入管道(.csv)作为训练字典

我正在尝试在 .csv 数据集(5008 列,533 行)上训练模型。我正在使用文本阅读器将数据解析为两个张量,一个保存要在 [example] 上训练的数据,另一个保存正确的标签 [label]:

这部分正在工作,当执行类似的事情时:

我的结果是Test: Tensor("shuffle_batch:0", shape=(10, 5007), dtype=float32)

到目前为止,这对我来说似乎很好。接下来,我创建了一个包含两个隐藏层(分别为 512 和 256 个节点)的简单模型。当我尝试训练模型时,出现问题的地方是:

I've based this approach on this example that uses the MNIST database. However, when I'm executing this, even when I'm just using batch_size = 1, Tensorflow just hangs. If I leave out the .eval() functions that should get the actual data from the tensors, I get the following response:

Now this I can understand, but I don't understand why the program hangs when I do include the .eval() function and I don't know where I could find any information about this issue.

EDIT: I included the most recent version of my entire script here. The program still hangs even though I implemented (as far as I know correctly) the solution that was offered by vijay m

0 投票
0 回答
145 浏览

python - Tensorflow pip3 gpu没有运行

我尝试在没有virutalenv 或docker 的情况下使用TensorFlow。只需使用 pip3。我的分类器在 Docker 中工作,但每次我想做某事时启动它是很痛苦的。这是我的错误:

这是我的代码:

Python 3.5.2 :: Anaconda 4.2.0(64 位)

0 投票
0 回答
268 浏览

tensorflow - GPU Ops 未显示在张量板图上

我已经使用 tensorflow 建立了一个快速网络,它似乎正在正确训练。它使用 GPU 进行所有网络操作,我通过创建会话验证了这一点tf.Session(config=tf.ConfigProto(log_device_placement=True))

我这样设置网络:

网络函数设置图形并返回训练操作和生成的图像张量以进行记录。

麻烦在于在 tensorboard 中可视化图形。出于某种原因,它只显示了我的输入处理操作的图表,如下所示: 在此处输入图像描述

如何让它正确显示我的整个网络?

0 投票
1 回答
319 浏览

python - ubuntu 16 python 安装成功后无法导入张量流

在打开 ipython 时根据 tf 文档https://www.tensorflow.org/install/install_linux安装 python anaconda 然后 tensorflow 并键入

我收到错误消息:

错误信息

任何帮助

0 投票
1 回答
616 浏览

tensorflow - Running distributed Tensorflow on Google Cloud ML engine ClusterSpec

I am trying to run a large distributed tensorflow model on Google Cloud's ML engine and am having trouble understanding what should go on tf.train.ClusterSpec.

When you run a job on Google Cloud you can select the scale tier from BASIC, STANDARD_1, PREMIUM_1, BASIC_GPU or CUSTOM, each giving you access to different types of clusters. However, I can't find the name/addresses of the machines in these clusters.

0 投票
1 回答
611 浏览

tensorflow - tensorflow-gpu 通过 pip 超时

我在运行 pip install --upgrade tensorflow_gpu 时从 pypi.python.org 超时,所以我添加了 --verbose 和 --timeout 10000 参数。它开始很快,然后开始爬行:

在 Windows 的 virtualenv 中安装 tensorflow-gpu 是否有更好的方法?遵循此模型的说明:https ://github.com/tensorflow/models/tree/master/attention_ocr

0 投票
0 回答
155 浏览

azure - 在 Azure VM NC6 上运行神经风格显示 11GiB 总内存

我是深度学习的新手。我只是想测试一些想法,所以我在 Azure VM NC6 上成功玩了https://github.com/anishathalye/neural-style(NC6对我来说就像一个 Instamatic ^_^)。但我得到了一些奇怪的日志。
在日志之前,我应该展示一下 NC6 的特性:

我有两个问题:

  1. 日志显示总内存只有 11GiB。但是对于 NC6,内存是 56GiB,GPU 是 24GiB。它们都不像 11GiB。我使用了 top 命令,它显示可用内存约为 55GiB。那么如何更有效地使用NC6 VM呢?有什么配置吗?或者只是在神经风格中添加一些 python 代码(使用 config = tf.ConfigProto() 来改变 GPU 内存的分配方式?)?

  2. 日志显示了关于 SSE3、SSE4.1、SSE4.2 的六个警告。AVX、AVX2 和 FMA 都是关于 CPU 计算的。我应该忽略 GPU 计算模式下的警告吗?

非常感谢!

0 投票
0 回答
242 浏览

tensorflow - tensorflow,GPU利用率高但训练速度低

在文本示例上训练 cnn 模型时遇到问题。

  1. 在单 GPU 上训练时,我的 GPU 利用率非常高,大约 97%,但训练速度非常慢。1000 个批次需要 450 秒(每批次 64 个示例),因此每个示例需要 7 毫秒。相比之下,分层 lstm 每个示例只需要 2~3ms。
  2. 我试图在 GPU 集群上部署我的训练进度,但得到了一个奇怪的 GPU 利用率。我使用了 4 个 GPU,大部分时间利用率为 0%。我尝试将批量大小从 64 修改为 2,然后 GPU 利用率变为正常,但小批量会导致性能低下。所以我想问有没有一种有效的方法可以通过使用 GPU 集群来加快训练进度。

(顺便说一句,这些问题仅在单个输入示例非常大时发生,例如包含数千个单词的新闻正文内容。当输入是新闻标题时,GPU 集群工作正常)

输入格式 [ 64 (examples/batch) * 2500 (words/example) * 200 (embedding dim) ] 对于我的 5 层 cnn 模型来说是否太大而无法正确训练?

1.模型定义(改编自https://github.com/dennybritz/cnn-text-classification-tf

2.训练进度(单GPU)

3.并行训练进度

0 投票
3 回答
11242 浏览

tensorflow - TensorFlow:ValueError:“图像”不包含任何形状

我使用 TensorFlow 函数 tf.image.resize_images 来调整图像大小,但在代码中出现此错误:ValueError: 'images' contains no shape。完整代码如下:

完整的错误信息是

然后我尝试解决这个问题,但只能找到这样的方法

只有这样功能才能正常工作,但不知道为什么?函数 tf.image.resize_images 是否仅将 numpy 数组作为参数?或者我可以找到另一种方法来解决这个问题?注意:img.set_shape([218,78,3]) 对我不起作用