问题标签 [tensorflow-gpu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 版本控制的Tensorflow textsum错误
我正在尝试将训练文本文件转换为 bin 文件以训练 tensorflow 的 textsum。但是我遇到了以下错误:
请帮助我。我正在使用 tensorflow 1.2.0 和 python 2.7.2。
tensorflow - Tensorflow:使用输入管道(.csv)作为训练字典
我正在尝试在 .csv 数据集(5008 列,533 行)上训练模型。我正在使用文本阅读器将数据解析为两个张量,一个保存要在 [example] 上训练的数据,另一个保存正确的标签 [label]:
这部分正在工作,当执行类似的事情时:
我的结果是Test: Tensor("shuffle_batch:0", shape=(10, 5007), dtype=float32)
到目前为止,这对我来说似乎很好。接下来,我创建了一个包含两个隐藏层(分别为 512 和 256 个节点)的简单模型。当我尝试训练模型时,出现问题的地方是:
I've based this approach on this example that uses the MNIST database.
However, when I'm executing this, even when I'm just using batch_size = 1
, Tensorflow just hangs. If I leave out the .eval()
functions that should get the actual data from the tensors, I get the following response:
Now this I can understand, but I don't understand why the program hangs when I do include the .eval()
function and I don't know where I could find any information about this issue.
EDIT: I included the most recent version of my entire script here. The program still hangs even though I implemented (as far as I know correctly) the solution that was offered by vijay m
python - Tensorflow pip3 gpu没有运行
我尝试在没有virutalenv 或docker 的情况下使用TensorFlow。只需使用 pip3。我的分类器在 Docker 中工作,但每次我想做某事时启动它是很痛苦的。这是我的错误:
这是我的代码:
Python 3.5.2 :: Anaconda 4.2.0(64 位)
python - ubuntu 16 python 安装成功后无法导入张量流
在打开 ipython 时根据 tf 文档https://www.tensorflow.org/install/install_linux安装 python anaconda 然后 tensorflow 并键入
我收到错误消息:
任何帮助
tensorflow - Running distributed Tensorflow on Google Cloud ML engine ClusterSpec
I am trying to run a large distributed tensorflow model on Google Cloud's ML engine and am having trouble understanding what should go on tf.train.ClusterSpec.
When you run a job on Google Cloud you can select the scale tier from BASIC, STANDARD_1, PREMIUM_1, BASIC_GPU or CUSTOM, each giving you access to different types of clusters. However, I can't find the name/addresses of the machines in these clusters.
tensorflow - tensorflow-gpu 通过 pip 超时
我在运行 pip install --upgrade tensorflow_gpu 时从 pypi.python.org 超时,所以我添加了 --verbose 和 --timeout 10000 参数。它开始很快,然后开始爬行:
在 Windows 的 virtualenv 中安装 tensorflow-gpu 是否有更好的方法?遵循此模型的说明:https ://github.com/tensorflow/models/tree/master/attention_ocr
azure - 在 Azure VM NC6 上运行神经风格显示 11GiB 总内存
我是深度学习的新手。我只是想测试一些想法,所以我在 Azure VM NC6 上成功玩了https://github.com/anishathalye/neural-style(NC6对我来说就像一个 Instamatic ^_^)。但我得到了一些奇怪的日志。
在日志之前,我应该展示一下 NC6 的特性:
我有两个问题:
日志显示总内存只有 11GiB。但是对于 NC6,内存是 56GiB,GPU 是 24GiB。它们都不像 11GiB。我使用了 top 命令,它显示可用内存约为 55GiB。那么如何更有效地使用NC6 VM呢?有什么配置吗?或者只是在神经风格中添加一些 python 代码(使用 config = tf.ConfigProto() 来改变 GPU 内存的分配方式?)?
日志显示了关于 SSE3、SSE4.1、SSE4.2 的六个警告。AVX、AVX2 和 FMA 都是关于 CPU 计算的。我应该忽略 GPU 计算模式下的警告吗?
非常感谢!
tensorflow - tensorflow,GPU利用率高但训练速度低
在文本示例上训练 cnn 模型时遇到问题。
- 在单 GPU 上训练时,我的 GPU 利用率非常高,大约 97%,但训练速度非常慢。1000 个批次需要 450 秒(每批次 64 个示例),因此每个示例需要 7 毫秒。相比之下,分层 lstm 每个示例只需要 2~3ms。
- 我试图在 GPU 集群上部署我的训练进度,但得到了一个奇怪的 GPU 利用率。我使用了 4 个 GPU,大部分时间利用率为 0%。我尝试将批量大小从 64 修改为 2,然后 GPU 利用率变为正常,但小批量会导致性能低下。所以我想问有没有一种有效的方法可以通过使用 GPU 集群来加快训练进度。
(顺便说一句,这些问题仅在单个输入示例非常大时发生,例如包含数千个单词的新闻正文内容。当输入是新闻标题时,GPU 集群工作正常)
输入格式 [ 64 (examples/batch) * 2500 (words/example) * 200 (embedding dim) ] 对于我的 5 层 cnn 模型来说是否太大而无法正确训练?
1.模型定义(改编自https://github.com/dennybritz/cnn-text-classification-tf)
2.训练进度(单GPU)
3.并行训练进度
tensorflow - TensorFlow:ValueError:“图像”不包含任何形状
我使用 TensorFlow 函数 tf.image.resize_images 来调整图像大小,但在代码中出现此错误:ValueError: 'images' contains no shape。完整代码如下:
完整的错误信息是
然后我尝试解决这个问题,但只能找到这样的方法
只有这样功能才能正常工作,但不知道为什么?函数 tf.image.resize_images 是否仅将 numpy 数组作为参数?或者我可以找到另一种方法来解决这个问题?注意:img.set_shape([218,78,3]) 对我不起作用